LLM逻辑推理一致性量化：结构不确定性框架解析

研究背景与问题

大语言模型（LLM）在复杂推理任务中表现亮眼，但其推理路径可能不稳定、自相矛盾，甚至难以一致排序。现有可靠性评估方法主要关注输出分散度（即采样答案的差异程度），但这忽略了另一个关键信号：模型能否在多个推理候选方案中保持一致的偏好排序。

结构不确定性：一种新框架

来自多所机构的研究者在 ICLR 2026 逻辑推理研讨会上提出结构不确定性（Structural Uncertainty） 框架，通过分析模型对自身生成推理路径的偏好稳定性来评估推理一致性。具体做法是：对同一问题生成多个候选推理方案，然后让模型对这些方案进行两两比较（自偏好判断），利用 Bradley-Terry 模型和 PageRank 算法将自偏好聚合为排序分布，最后分解为两个熵分量：

跨试验排序不稳定性（Across-trial ranking instability）：多次试验中排序结果的波动程度。
试验内候选歧义性（Within-trial candidate ambiguity）：单次试验中候选方案之间的区分难度。

实验发现与洞察

在 5 个 LLM 和 8 个基准测试中，结构不确定性信号与输出分散度互补。在逻辑和数学推理任务上，两者结合能更可靠地识别不可靠实例；而在事实检索任务上，结构信号趋于均匀，表明推理层面的一致性评估在此场景下无效。

有趣的是，两个分量与准确率的关系截然不同：

试验内歧义性与正确率正相关：当多个合理推理路径并存时，歧义性高反而反映模型探索充分。
跨试验不稳定性与正确率负相关：排序频繁波动是推理不稳定的信号。

结论与意义

结构不确定性并非普适的置信度估计器，而是一种对逻辑推理一致性敏感的评估工具，尤其适用于需要多步演绎推理的场景。该工作为 LLM 可靠性评估提供了新维度，有助于设计更鲁棒的推理系统。

论文已被 ICLR 2026 逻辑推理研讨会接收并获最佳论文奖。

量化LLM逻辑推理的一致性：结构不确定性框架

研究背景与问题

结构不确定性：一种新框架

实验发现与洞察

结论与意义

延伸阅读

相关资讯