SheepNav
新上线今天0 投票

自我蒸馏策略梯度:让语言模型自己教自己,强化学习的新突破

强化学习(RL)在语言模型微调中常面临奖励稀疏的难题——模型生成大量文本后,往往只能得到一个最终的胜负或好坏判断,中间步骤缺乏细粒度反馈。近日,一篇发表于 arXiv 的论文提出了 SDPG(Self-Distilled Policy Gradient) 框架,通过“自我蒸馏”的方式为模型提供密集的监督信号,显著提升了训练的稳定性和最终性能。

核心思路:让模型既当学生又当老师

传统的策略梯度方法(如 PPO)依赖于一个独立的奖励模型或人工设计的奖励函数,而 SDPG 另辟蹊径:它利用语言模型自身在“特权上下文”(privileged context)下的输出作为监督。所谓特权上下文,可以理解为模型在生成时额外获得的“完美信息”——比如在数学推理任务中,正确答案的解题步骤。模型通过对比自己当前生成与“理想生成”之间的差异,就能获得每一步的梯度信号,无需等待最终奖励。

论文将这一过程形式化为一个辅助的全词汇学生-教师反向 KL 散度损失。简单来说,教师(模型在特权条件下的分布)告诉学生(模型在正常条件下的分布):“你应该更像我这样生成。” 这种蒸馏损失与主任务的目标(如最大化奖励)联合优化,从而提供密集的监督。

SDPG 的三项关键设计

SDPG 框架融合了三个组件:

  1. 组相对验证器优势(Group-Relative Verifier Advantages):借鉴 GRPO 的思想,SDPG 在多个生成样本之间计算相对优势,而不是依赖绝对奖励值。这有助于消除奖励噪声,让梯度更新更稳定。
  2. 精确全词汇在线自我蒸馏:与常见的仅对采样 token 进行蒸馏不同,SDPG 计算整个词汇表上的 KL 散度,从而捕捉更丰富的分布信息。这让监督信号更加精细。
  3. 参考策略 KL 正则化:为防止模型过度偏离原始策略,SDPG 引入了一个参考策略(通常是初始 SFT 模型)的 KL 惩罚项,确保更新幅度可控。

实验结果:更稳定,更高效

在多个数学推理和代码生成任务上,SDPG 相比于 RLVR(基于验证器奖励的强化学习)和纯自我蒸馏基线,均表现出更好的收敛稳定性和最终准确率。论文还指出,SDPG 在训练过程中奖励方差更低,说明其密集监督机制有效抑制了训练波动。

行业视角:自我蒸馏的潜力与挑战

SDPG 并非首个将蒸馏用于强化学习的工作,但其创新在于在线、全词汇、结合组相对优势的统一框架。这为语言模型在稀疏奖励场景下的微调提供了一条低成本、高回报的路径——无需额外训练奖励模型,也无需人工标注中间步骤。

不过,该方法对特权上下文的质量依赖较高。在无法获取理想生成步骤的任务中(如开放式对话),如何设计有效的特权条件仍是一个开放问题。此外,全词汇 KL 计算的计算开销不可忽视,未来可能需要更高效的近似方法。

总体而言,SDPG 为语言模型强化学习领域注入了一股新思路,尤其适合数学、编程等具有明确正确步骤的领域。随着代码的开源,我们期待更多研究者能在此基础上探索更广泛的落地场景。

延伸阅读

  1. 贝叶斯充分表示:监督学习中的信息保留与损失函数的关系
  2. 利用梯度优化与多组注意力神经网络实现逆临界实验设计
  3. Transformer 真的需要三个投影吗?QKV 变体系统研究
查看原文