从语言模型轨迹读取校准不确定性：提升21个AURC点

研究背景

在结构化输出的语言模型生成中，最大softmax概率（MSP）是评估不确定性量化的默认方法。尽管计算成本低，但MSP往往校准不良。现有方法通过探测模型内部激活，将原始隐藏状态输入不透明分类器，将激活视为静态快照，忽略了表示形成的逐层轨迹。然而，相似的终点可能源于截然不同的路径，证据在各层间如何积累、增强或逆转，可能揭示出最终概率所掩盖的不确定性。

方法创新

该研究提取了11种尺度不变的几何特征，追踪每层MLP更新的累积路径，并将其输入稀疏线性探针。这些特征具有封闭形式的几何意义，使得探针的系数能够揭示误差在深度上的形成过程——哪些层过早做出决定，哪些层与运行状态矛盾，以及轨迹何时偏离终点。

实验结果

在选择性弃权（selective abstention）场景下，该探针显著优于MSP，性能提升幅度与基线校准误差成正比，最高可达21个AURC点。这表明，通过分析语言模型的内部轨迹，可以有效提高不确定性估计的校准度。

行业意义

这项研究为语言模型的可信度评估提供了新视角。传统方法依赖最终输出概率，但忽略了推理过程中的动态变化。通过几何特征揭示的路径信息，不仅能提升不确定性量化精度，还能帮助理解模型何时犯错，为模型调试和安全性应用提供支持。未来，该方法可能集成到更复杂的校准框架中，推动语言模型在医疗、金融等高风险领域的可靠部署。

从语言模型轨迹中读取校准后的不确定性

研究背景

方法创新

实验结果

行业意义

延伸阅读

相关资讯