SheepNav
新上线今天0 投票

灾难性遗忘的机制根源:为何强化学习比监督微调更擅长保留神经网络回路?

大型语言模型(LLM)在微调时经常遭遇灾难性遗忘,即学习新任务的同时丢失先前掌握的能力。近期研究表明,强化学习(RL)比监督微调(SFT)能更有效地保留原有能力,原因在于策略梯度更新更贴近基础策略。来自多所机构的研究人员将这一行为层面的解释深入到机制层面,探究RL的优势是否源于对内部计算回路的更强保护。

关键发现:回路保留与任务适应的权衡

研究团队引入 差异回路脆弱性(differential circuit vulnerability)这一指标,以注意力头为粒度,衡量微调对计算回路的破坏程度。他们在 Qwen2.5-3B-Instruct 模型上,针对科学问答任务分别应用RL和SFT进行适配,发现了清晰的机制权衡:

  • SFT 能更快适应目标任务,但代价是显著的回路破坏和先前能力的遗忘。
  • RL 则保留了更大比例的基础回路,尽管任务适应速度较慢。

为何RL更鲁棒?

这一发现暗示,回路的保留程度可能是RL对灾难性遗忘更具鲁棒性的关键解释。与SFT直接拟合目标分布不同,RL通过奖励信号引导探索,在优化过程中更接近原始策略,从而减少了内部计算结构的剧烈重组。

行业意义与未来方向

该工作为理解微调策略的底层机制提供了新视角,也为开发更高效的持续学习方法指明了方向。未来,研究者或可设计同时兼顾任务适应速度与回路保留的混合训练方案,或利用回路脆弱性指标作为微调过程中的监测信号,在性能与稳定性之间取得更好平衡。

论文代码已开源,感兴趣的读者可访问 arXiv 获取更多细节。

延伸阅读

  1. 上手体验 Gemini Spark:我把生活全权交给它,它却把我男友当成了“好朋友”
  2. 这些AI术语你肯定听过但未必懂,我们来一次性说清楚
  3. 亚马逊将这款75英寸海信电视降至850美元以下——我强烈推荐
查看原文