反事实推理路径降低大模型强化学习信用分配方差

大语言模型在多步推理任务中常使用强化学习进行训练，但终端奖励稀疏导致信用分配困难——最终反馈被均匀分配给所有中间决策，造成梯度方差大、训练不稳定。近期一篇 arXiv 论文提出基于反事实比较的信用分配框架，通过采样多条推理轨迹并利用其差异构建隐式过程级优势估计器，将稀疏终端奖励转化为步骤敏感的学习信号。基于此提出的隐式行为策略优化（IBPO）在数学和代码推理基准上显著提升了训练稳定性和性能上限。

反事实推理路径：降低大模型强化学习中的信用分配方差

延伸阅读

相关资讯