语言模型何时“下定决心”？有限答案理论揭秘

语言模型在给出最终答案前往往会生成一段推理过程，但可见的答案并不能揭示模型何时对答案偏好变得稳定。一篇来自 arXiv 的新论文（arXiv:2605.06723）提出了一个可计算的理论框架——“有限答案偏好稳定化”（finite-answer preference stabilization），通过投射模型自身的续写概率到有限答案集上，来精确定位模型做出“承诺”的时刻。

核心方法：对数几率差与稳定化时刻

研究团队定义了一个关键量 δ(ξ) = S_θ(yes|ξ) - S_θ(no|ξ)，即模型在给定上下文 ξ 下生成“yes”与“no”的对数几率差。对于二分类任务，这个值精确编码了模型的偏好。通过追踪 δ 在推理过程中的变化，可以识别出三个重要时间点：

解析器可识别答案起始点：答案首次在文本中明确出现
回顾性稳定化时间：δ 值稳定在最终答案方向上的最早时刻
领先量：稳定化时刻早于可识别时刻的 token 数

该方法无需依赖贪婪解码或学习探针，完全基于模型自身的概率分布。

实验发现：偏好稳定早于答案输出

在 Qwen3-4B-Instruct 模型上的受控延迟裁决任务中，研究发现：

有限答案投影在答案可解析之前就已稳定，平均领先 17-31 个 token（主模板）
在解析器清理的复现模板中，领先虽缩短但仍为正值
该信号追踪的是模型最终输出而非客观真相
信号可从紧凑的隐藏状态摘要中线性恢复
信号与光标位置部分可分离，且作为共享信息传递，不存在单一不变坐标

诊断与因果分析

论文进一步设计了诊断实验，将测量与在线停止、无词汇化信念、因果答案控制等概念区分开。精确的干预实验显示，δ 具有局部敏感性，但无法可靠地控制生成结果。这意味着该指标更适合作为观测工具而非直接控制手段。

行业意义

这项工作为理解语言模型的内部决策时序提供了新视角。在可解释性、安全对齐和推理效率优化等场景中，知道模型何时“下定决心”有助于：

设计更早的停止策略，节省计算资源
检测模型是否在答案稳定后仍被无关推理干扰
构建更透明的推理过程审计工具

论文作者来自中国研究机构，论文已提交至 arXiv，涵盖人工智能、计算语言学与机器学习三个子领域。

语言模型何时“下定决心”？有限答案理论揭示预语言化承诺时刻

核心方法：对数几率差与稳定化时刻

实验发现：偏好稳定早于答案输出

诊断与因果分析

行业意义

延伸阅读

相关资讯