状态承诺学习：让语言模型区分计算与记忆

当前推理语言模型存在一个根本性缺陷：它们无法区分用于计算的 token 和构成持久状态的 token。一旦生成，所有中间推理步骤（包括失败的尝试、死胡同和私有草稿）都会保留在上下文中，影响后续预测。这种“记忆污染”导致模型可能依赖不应被信任的临时计算。

来自 Fei Ding、Yongkang Zhang 等人的最新研究提出了一种名为 状态承诺学习（State Commitment Learning） 的新训练范式，旨在解决这一问题。该研究已在 arXiv 上发布（编号 2606.05201），并提出了一个关键概念：持久状态充分性（persistent-state sufficiency）——即当隐藏思考被擦除后，答案是否仍能保持可用。基于此，他们设计了 反事实擦除强化学习（CERL） 算法。

CERL 的核心机制

CERL 在相同前缀下同时评估两条路径：一条保留隐藏思考，另一条将其擦除。只有当擦除路径仍能给出正确结果时，模型才获得奖励。这种方式迫使模型学会将关键信息提交为持久状态，而非依赖临时计算。

实验验证

研究者在数学推理、长链逻辑、科学问答和多轮工具使用等多个任务上进行了评估。结果显示，CERL 在 不牺牲准确率 的前提下，显著降低了对隐藏思考的依赖。相比之下，仅使用正确性奖励的强化学习（RL）和长答案监督微调（SFT）基线方法表现较差。

行业意义

这项研究对 AI 安全与可靠性具有重要价值。当前的思维链（Chain-of-Thought）技术虽然提升了推理能力，但也引入了不可控的中间状态污染。状态承诺学习提供了一种系统性的解决方案，使模型的推理过程更加透明和可审计。

未来展望

论文还引入了 擦除依赖协议（Erasure Dependence Protocol） 作为评估工具。研究者认为，这一方向有望推动语言模型从“黑箱推理”向“结构化推理”演进，尤其在需要长期记忆和工具调用的复杂场景中具有广阔应用前景。

状态承诺学习：训练语言模型区分计算与记忆

CERL 的核心机制

实验验证

行业意义

未来展望

延伸阅读

相关资讯