状态承诺学习:训练语言模型区分计算与记忆
当前推理语言模型存在一个根本性缺陷:它们无法区分用于计算的 token 和构成持久状态的 token。一旦生成,所有中间推理步骤(包括失败的尝试、死胡同和私有草稿)都会保留在上下文中,影响后续预测。这种“记忆污染”导致模型可能依赖不应被信任的临时计算。
来自 Fei Ding、Yongkang Zhang 等人的最新研究提出了一种名为 状态承诺学习(State Commitment Learning) 的新训练范式,旨在解决这一问题。该研究已在 arXiv 上发布(编号 2606.05201),并提出了一个关键概念:持久状态充分性(persistent-state sufficiency)——即当隐藏思考被擦除后,答案是否仍能保持可用。基于此,他们设计了 反事实擦除强化学习(CERL) 算法。
CERL 的核心机制
CERL 在相同前缀下同时评估两条路径:一条保留隐藏思考,另一条将其擦除。只有当擦除路径仍能给出正确结果时,模型才获得奖励。这种方式迫使模型学会将关键信息提交为持久状态,而非依赖临时计算。
实验验证
研究者在数学推理、长链逻辑、科学问答和多轮工具使用等多个任务上进行了评估。结果显示,CERL 在 不牺牲准确率 的前提下,显著降低了对隐藏思考的依赖。相比之下,仅使用正确性奖励的强化学习(RL)和长答案监督微调(SFT)基线方法表现较差。
行业意义
这项研究对 AI 安全与可靠性具有重要价值。当前的思维链(Chain-of-Thought)技术虽然提升了推理能力,但也引入了不可控的中间状态污染。状态承诺学习提供了一种系统性的解决方案,使模型的推理过程更加透明和可审计。
未来展望
论文还引入了 擦除依赖协议(Erasure Dependence Protocol) 作为评估工具。研究者认为,这一方向有望推动语言模型从“黑箱推理”向“结构化推理”演进,尤其在需要长期记忆和工具调用的复杂场景中具有广阔应用前景。