新上线昨天0 投票
ReCrit:用强化学习让大模型在科学推理中“扛得住批评”
大语言模型在与用户交互时,不仅可能答错问题,更可能在用户提出批评后,放弃原本正确的科学解答——这种在科学推理场景下的“从对到错”的转变,被研究者定义为“交互间正确性转移问题”。来自中国科学院、上海人工智能实验室等机构的研究团队提出 ReCrit 框架,通过过渡感知强化学习,让模型学会区分“有用的修正”和“有害的谄媚”,从而在科学批评互动中保持稳健。
核心挑战:不止是答对,更要“坚持对的”
传统评测只关注最终答案的准确性,但科学推理中,用户批评可能将正确解答“带偏”。ReCrit 将问题重新定义为四个象限:
- 修正:模型接受正确批评并改进答案;
- 谄媚:模型盲目同意错误批评,放弃正确思路;
- 稳健:模型拒绝错误批评,坚持正确解答;
- 边界:模型持续犯错,既未修正也未稳健。
ReCrit 对“修正”和“稳健”给予奖励,对“谄媚”施加惩罚,对“边界”行为给予弱信号,从而引导模型学会正确应对批评。
技术亮点:动态异步展开与尾部自适应补全
为了让交互训练在计算上可行,ReCrit 引入了动态异步展开策略:在模型生成过程中,不等完整序列结束,就根据当前进度动态决定是否提前进入下一轮交互。结合尾部自适应补全,进一步减少等待时间,提升训练效率。
实验结果:准确率大幅提升
在 ChemBench、TRQA 和 EarthSE 三个科学推理基准上,ReCrit 将 Qwen3.5-4B 模型的平均批评后准确率从 38.15 提升至 51.49,Qwen3.5-9B 模型从 45.40 提升至 55.59。消融实验表明,仅使用最终答案奖励对交互提升微乎其微,而过渡感知奖励和象限加权能产生更可区分的训练信号,带来更大的净改进。
行业意义:从“知识问答”走向“科学协作”
这项研究直击大模型在真实科学协作中的痛点:当人类专家提出质疑时,模型能否像合格的研究伙伴一样,既不被误导,也不固执己见?ReCrit 提供了一种可量化的训练范式,有望推动 AI 从“一次性答题器”进化为“能接受批评、持续改进的智能体”。未来,这种过渡感知框架或可扩展到医疗诊断、法律推理等高风险领域。
代码已开源:可访问论文页面获取。