精选今天0 投票
语言模型何时“下定决心”?有限答案理论揭示预语言化承诺时刻
语言模型在给出最终答案前往往会生成一段推理过程,但可见的答案并不能揭示模型何时对答案偏好变得稳定。一篇来自 arXiv 的新论文(arXiv:2605.06723)提出了一个可计算的理论框架——“有限答案偏好稳定化”(finite-answer preference stabilization),通过投射模型自身的续写概率到有限答案集上,来精确定位模型做出“承诺”的时刻。
核心方法:对数几率差与稳定化时刻
研究团队定义了一个关键量 δ(ξ) = S_θ(yes|ξ) - S_θ(no|ξ),即模型在给定上下文 ξ 下生成“yes”与“no”的对数几率差。对于二分类任务,这个值精确编码了模型的偏好。通过追踪 δ 在推理过程中的变化,可以识别出三个重要时间点:
- 解析器可识别答案起始点:答案首次在文本中明确出现
- 回顾性稳定化时间:δ 值稳定在最终答案方向上的最早时刻
- 领先量:稳定化时刻早于可识别时刻的 token 数
该方法无需依赖贪婪解码或学习探针,完全基于模型自身的概率分布。
实验发现:偏好稳定早于答案输出
在 Qwen3-4B-Instruct 模型上的受控延迟裁决任务中,研究发现:
- 有限答案投影在答案可解析之前就已稳定,平均领先 17-31 个 token(主模板)
- 在解析器清理的复现模板中,领先虽缩短但仍为正值
- 该信号追踪的是模型最终输出而非客观真相
- 信号可从紧凑的隐藏状态摘要中线性恢复
- 信号与光标位置部分可分离,且作为共享信息传递,不存在单一不变坐标
诊断与因果分析
论文进一步设计了诊断实验,将测量与在线停止、无词汇化信念、因果答案控制等概念区分开。精确的干预实验显示,δ 具有局部敏感性,但无法可靠地控制生成结果。这意味着该指标更适合作为观测工具而非直接控制手段。
行业意义
这项工作为理解语言模型的内部决策时序提供了新视角。在可解释性、安全对齐和推理效率优化等场景中,知道模型何时“下定决心”有助于:
- 设计更早的停止策略,节省计算资源
- 检测模型是否在答案稳定后仍被无关推理干扰
- 构建更透明的推理过程审计工具
论文作者来自中国研究机构,论文已提交至 arXiv,涵盖人工智能、计算语言学与机器学习三个子领域。