SheepNav
新上线今天0 投票

延迟、停滞还是崩溃?系统验证错误如何影响RLVR训练效果

强化学习与可验证奖励(RLVR)是提升大语言模型推理能力的有效方法,但实际中的验证器(如代码检查工具)常存在系统误差。最新研究指出,这些误差并非随机独立,而是具有系统性的错误模式,可能给模型训练带来严重后果。

系统误差 vs. 随机误差:两种截然不同的影响

以往研究通常将验证器误差视为随机且样本间独立的噪声,结论是这些误差仅会减缓训练速度,对最终性能影响有限。然而,来自苏黎世联邦理工学院的研究团队在 arXiv 上发表的论文《Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR》指出,真实世界的验证器往往表现出系统性错误,例如静态代码检查器可能始终漏报某些类型的 bug,或对特定代码风格产生假阳性警报。

关键发现:假阴性与假阳性的不对称效应

研究团队通过算术任务的受控实验揭示了两种系统误差的差异:

  • 系统性假阴性(本应正确却被判错)的影响与随机噪声类似,主要表现为训练延迟,但模型仍能最终收敛到接近最优的性能。
  • 系统性假阳性(本应错误却被判对)则可能引发从次优停滞到性能崩溃的广泛问题。模型会“学会”错误的行为模式,甚至彻底丧失推理能力。

误差率不是唯一指标:错误模式决定成败

论文强调,训练结果并非由整体误差率决定,而是取决于错误的特定分布模式。这意味着,仅仅降低验证器的平均误差率并不足以保证RLVR的安全性;即使整体误差率很低,只要错误集中在某个关键模式上,就可能导致灾难性后果。因此,验证器质量需要超越样本级错误率来理解。

对AI训练实践的启示

该研究对RLVR的实际应用提出了警示:在依赖自动验证器(如代码测试、数学答案核对)进行强化学习时,开发者必须仔细检查验证器是否存在系统偏差。例如,如果代码检查器经常漏报内存泄漏,模型可能会学会写出有内存泄漏的代码。未来,开发更鲁棒的验证器或引入对抗性验证机制,将是确保RLVR安全可靠的关键方向。

总之,系统验证误差对RLVR的影响远非“仅减速”那么简单。研究团队的工作为理解和缓解这一风险提供了重要基础。

延伸阅读

  1. 当安全几何结构崩塌:智能体防护模型在微调中的脆弱性
  2. 生成、过滤、控制、重放:LLM强化学习中的推演策略全面综述
  3. Agentic AI 结合混合专家与 LLM,实现 6G 网络智能优化
查看原文