ICRL：强化学习让大模型内化自我批评能力

大语言模型（LLM）智能体在执行任务时难免出错，但外部的批评或纠正往往能引导模型走向正确。然而，一旦移除批评，模型可能再次犯错——这表明它并未真正将批评中的指导内化为自身能力。同时，一个固定的批评者也无法持续提升反馈质量，限制了迭代式自我改进的潜力。针对这一困境，来自香港科技大学等机构的研究团队提出了一种名为 ICRL（Internalize Self-Critique with Reinforcement Learning） 的新框架，旨在通过强化学习让模型学会将自我批评转化为无需外部辅助的求解能力。

ICRL 的核心思路是：从一个共享主干模型出发，联合训练一个“求解器”（solver）和一个“批评者”（critic）。批评者的奖励取决于求解器在采纳其反馈后性能的提升幅度，从而激励批评者生成真正有行动价值的反馈。为了弥合“有批评”与“无批评”两种行为模式之间的分布偏移，ICRL 引入了一个 分布校准重加权比率，有选择地仅将那些与求解器自身提示分布兼容的批评指导成果迁移过来。此外，角色分组优势估计 机制稳定了两个角色的联合优化过程。这些设计共同确保求解器学会在没有外部批评的情况下自我改进，而不是变得依赖批评。

在涵盖智能体任务和数学推理的多个基准上，以 Qwen3-4B 和 Qwen3-8B 为骨干的评估显示，ICRL 取得了持续改进：在智能体任务上平均比 GRPO 基线高出 6.4 个点，在数学推理上高出 7.0 个点。值得注意的是，ICRL 训练出的 8B 批评者在性能上可与 32B 的批评者相媲美，同时使用的 token 数量大幅减少。

这项工作的意义在于，它首次将“内化批评”这一概念形式化为一个可训练的强化学习框架，为构建真正具备自我纠错能力的 AI 系统提供了新思路。当模型不再需要外部提示就能自行纠正错误时，其自主性与可靠性将迈上新的台阶。代码已开源。

ICRL：用强化学习让大模型把自我批评内化为能力

延伸阅读

相关资讯