SheepNav
新上线今天0 投票

PROGRS框架:利用过程奖励优化LLM数学推理,以结果为导向提升步骤准确性

大语言模型数学推理的奖励机制演进

在大型语言模型的数学推理能力训练中,强化学习结合可验证奖励已成为主流方法。通过自动检查最终答案,系统能生成可靠的训练信号。然而,传统方法仅优化结果正确性,这在处理多步骤、长推理链问题时面临挑战:反馈稀疏,且对中间推理错误缺乏有效指导。

过程奖励模型的引入与局限

为应对这一挑战,研究者引入了过程奖励模型来评估中间步骤,提供更密集的监督。PRM能对推理过程中的每一步进行评分,理论上可引导模型生成更合理的中间推导。但在实际应用中,PRM评分常与最终正确性不完全一致,可能导致模型生成局部流畅但最终错误的推理路径。若将PRM分数作为绝对奖励进行优化,可能强化“流畅失败”模式,甚至引发奖励黑客行为——模型学会迎合评分标准而非真正解决问题。

PROGRS框架:以结果为主导的过程奖励优化

针对上述问题,来自arXiv:2604.02341的研究提出了PROGRS框架。该框架的核心创新在于:

  • 保持结果正确性的主导地位:PROGRS将过程奖励视为结果组内的相对偏好,而非绝对目标。
  • 结果条件中心化:将错误轨迹的PRM分数在每个提示组内调整为零均值,消除系统性偏差,同时保留信息性排名。
  • 集成多尺度一致性评估器:结合冻结的分位数回归PRM,评估推理链的连贯性。

技术实现与实验效果

PROGRS将处理后的过程奖励融入组相对策略优化中,无需额外可训练组件或辅助目标。在MATH-500、AMC、AIME、MinervaMath和OlympiadBench等多个数学推理基准测试中,PROGRS均显著优于仅优化结果的基线模型,以更少的采样次数实现了更强的性能表现。

关键优势

  • 安全性:通过结果条件中心化,有效避免奖励黑客和流畅失败模式的放大。
  • 效率:减少训练所需的采样次数,提升数据利用效率。
  • 通用性:框架设计简洁,易于集成到现有强化学习流程中。

行业意义与未来展望

PROGRS框架的提出,标志着大语言模型推理训练从单纯追求结果正确性,向精细化过程监督迈出了重要一步。在数学、逻辑推理等需要多步骤推导的领域,该方法有望提升模型的可靠性和可解释性。

随着AI模型在科研、教育、工程等领域的深入应用,对中间推理步骤的质量控制将变得越来越重要。PROGRS提供了一种平衡结果导向与过程优化的可行路径,为未来更复杂任务的模型训练提供了新思路。

延伸阅读

  1. 从俳句到巨作仅需10比特:大语言模型解锁海量压缩增益
  2. 同质性感知的监督对比反事实增强公平图神经网络:解决GNN偏见的新方法
  3. 并非所有去噪步骤都同等重要:模型调度加速掩码扩散语言模型
查看原文