新上线今天0 投票
从语言模型轨迹中读取校准后的不确定性
研究背景
在结构化输出的语言模型生成中,最大softmax概率(MSP)是评估不确定性量化的默认方法。尽管计算成本低,但MSP往往校准不良。现有方法通过探测模型内部激活,将原始隐藏状态输入不透明分类器,将激活视为静态快照,忽略了表示形成的逐层轨迹。然而,相似的终点可能源于截然不同的路径,证据在各层间如何积累、增强或逆转,可能揭示出最终概率所掩盖的不确定性。
方法创新
该研究提取了11种尺度不变的几何特征,追踪每层MLP更新的累积路径,并将其输入稀疏线性探针。这些特征具有封闭形式的几何意义,使得探针的系数能够揭示误差在深度上的形成过程——哪些层过早做出决定,哪些层与运行状态矛盾,以及轨迹何时偏离终点。
实验结果
在选择性弃权(selective abstention)场景下,该探针显著优于MSP,性能提升幅度与基线校准误差成正比,最高可达21个AURC点。这表明,通过分析语言模型的内部轨迹,可以有效提高不确定性估计的校准度。
行业意义
这项研究为语言模型的可信度评估提供了新视角。传统方法依赖最终输出概率,但忽略了推理过程中的动态变化。通过几何特征揭示的路径信息,不仅能提升不确定性量化精度,还能帮助理解模型何时犯错,为模型调试和安全性应用提供支持。未来,该方法可能集成到更复杂的校准框架中,推动语言模型在医疗、金融等高风险领域的可靠部署。