精选今天0 投票
量化LLM逻辑推理的一致性:结构不确定性框架
研究背景与问题
大语言模型(LLM)在复杂推理任务中表现亮眼,但其推理路径可能不稳定、自相矛盾,甚至难以一致排序。现有可靠性评估方法主要关注输出分散度(即采样答案的差异程度),但这忽略了另一个关键信号:模型能否在多个推理候选方案中保持一致的偏好排序。
结构不确定性:一种新框架
来自多所机构的研究者在 ICLR 2026 逻辑推理研讨会上提出结构不确定性(Structural Uncertainty) 框架,通过分析模型对自身生成推理路径的偏好稳定性来评估推理一致性。具体做法是:对同一问题生成多个候选推理方案,然后让模型对这些方案进行两两比较(自偏好判断),利用 Bradley-Terry 模型和 PageRank 算法将自偏好聚合为排序分布,最后分解为两个熵分量:
- 跨试验排序不稳定性(Across-trial ranking instability):多次试验中排序结果的波动程度。
- 试验内候选歧义性(Within-trial candidate ambiguity):单次试验中候选方案之间的区分难度。
实验发现与洞察
在 5 个 LLM 和 8 个基准测试中,结构不确定性信号与输出分散度互补。在逻辑和数学推理任务上,两者结合能更可靠地识别不可靠实例;而在事实检索任务上,结构信号趋于均匀,表明推理层面的一致性评估在此场景下无效。
有趣的是,两个分量与准确率的关系截然不同:
- 试验内歧义性与正确率正相关:当多个合理推理路径并存时,歧义性高反而反映模型探索充分。
- 跨试验不稳定性与正确率负相关:排序频繁波动是推理不稳定的信号。
结论与意义
结构不确定性并非普适的置信度估计器,而是一种对逻辑推理一致性敏感的评估工具,尤其适用于需要多步演绎推理的场景。该工作为 LLM 可靠性评估提供了新维度,有助于设计更鲁棒的推理系统。
论文已被 ICLR 2026 逻辑推理研讨会接收并获最佳论文奖。