GRPO、Dr. GRPO 和 DAPO 竟是同一回事?论文揭示三者本质:操作的是同一个数
一篇新论文揭示,当前大语言模型推理训练中三种主流方法——GRPO、Dr. GRPO 和 DAPO——本质上并非各自独立的技巧,而是对同一个关键数值的不同操作:回答不一致程度,即模型对同一问题多次采样所得答案的标准差。
该论文题为《GRPO, Dr. GRPO, and DAPO Are Three Operations on One Number: The Group-Standard-Deviation Identity》,由 Yong Yi Bay 和 Kathleen A. Yearick 撰写,目前已提交至 arXiv。研究者通过数学推导和实验验证,提出了一个简洁的“组标准差恒等式”,将三种看似不同的策略统一在同一个理论框架下。
核心发现:所有方法都在调节同一个“拨盘”
在训练推理模型时,通常会让模型对每个问题生成多个回答,并由自动检查器标记正确或错误。这些标记的标准差衡量了答案的不一致程度:当回答对半开时标准差最大,全部一致时为零。
- GRPO:用标准差进行除法归一化。
- Dr. GRPO:直接去掉除法步骤。
- DAPO:丢弃标准差为零的组(即所有回答一致的情况)。
论文证明,这三种方法实际上只是同一个“拨盘”上的三个不同设定值。这个拨盘并非无关紧要:对于二元奖励(对/错),训练更新的幅度恰好等于组内标准差——这就是所谓的“组标准差恒等式”。
意义:不一致的组才是学习的关键
这一发现带来了深刻的训练启示:
- 分裂的组(高标准差):模型内部存在分歧,这类问题提供了最大的学习信号,应获得最高的训练权重。
- 一致的组(标准差为零):模型已经“同意”答案,学习信号为零,在 DAPO 中直接被丢弃,而在 GRPO 和 Dr. GRPO 中则贡献甚微。
换句话说,模型从它尚未掌握、存在分歧的问题中学到最多,而从已经一致的问题上学不到任何东西。这解释了为什么 DAPO 的“丢弃一致组”策略有效——它本质上是在自动识别并聚焦于有争议的样本。
实验验证与行业影响
研究团队在大型真实难度数据集 Big-Math 上验证了这一理论,并通过受控训练实验进一步确认。结果表明,所谓的“无害归一化步骤”实际上决定了学习发生在哪里以及学习强度有多大。
这一统一视角对 AI 训练实践有直接指导意义:
- 帮助研究者更理性地选择或组合这些方法;
- 揭示训练过程中的“学习热点”,从而更高效地分配计算资源;
- 为未来设计新的训练算法提供了理论基石。
论文作者表示,代码和数据已公开,供社区复现和进一步探索。
小结
这篇论文为当前大模型推理训练中流行的三种方法提供了统一的数学解释,揭示了它们本质上都是对“组内标准差”这一单一指标的不同操作。它不仅澄清了方法间的真实关系,也为更高效、更具解释性的训练策略指明了方向。