SheepNav
精选今天0 投票

量化LLM逻辑推理的一致性:结构不确定性框架

研究背景与问题

大语言模型(LLM)在复杂推理任务中表现亮眼,但其推理路径可能不稳定、自相矛盾,甚至难以一致排序。现有可靠性评估方法主要关注输出分散度(即采样答案的差异程度),但这忽略了另一个关键信号:模型能否在多个推理候选方案中保持一致的偏好排序。

结构不确定性:一种新框架

来自多所机构的研究者在 ICLR 2026 逻辑推理研讨会上提出结构不确定性(Structural Uncertainty) 框架,通过分析模型对自身生成推理路径的偏好稳定性来评估推理一致性。具体做法是:对同一问题生成多个候选推理方案,然后让模型对这些方案进行两两比较(自偏好判断),利用 Bradley-Terry 模型和 PageRank 算法将自偏好聚合为排序分布,最后分解为两个熵分量:

  • 跨试验排序不稳定性(Across-trial ranking instability):多次试验中排序结果的波动程度。
  • 试验内候选歧义性(Within-trial candidate ambiguity):单次试验中候选方案之间的区分难度。

实验发现与洞察

在 5 个 LLM 和 8 个基准测试中,结构不确定性信号与输出分散度互补。在逻辑和数学推理任务上,两者结合能更可靠地识别不可靠实例;而在事实检索任务上,结构信号趋于均匀,表明推理层面的一致性评估在此场景下无效。

有趣的是,两个分量与准确率的关系截然不同:

  • 试验内歧义性与正确率正相关:当多个合理推理路径并存时,歧义性高反而反映模型探索充分。
  • 跨试验不稳定性与正确率负相关:排序频繁波动是推理不稳定的信号。

结论与意义

结构不确定性并非普适的置信度估计器,而是一种对逻辑推理一致性敏感的评估工具,尤其适用于需要多步演绎推理的场景。该工作为 LLM 可靠性评估提供了新维度,有助于设计更鲁棒的推理系统。

论文已被 ICLR 2026 逻辑推理研讨会接收并获最佳论文奖。

延伸阅读

  1. 技能约束下的模型预测控制:为韧性制造供应链注入智能决策
  2. 超越并行采样:多样查询初始化如何提升智能体搜索性能
  3. 当规则学会进化:自我演化的法律案例检索智能体
查看原文