SheepNav
精选今天0 投票

延迟逐步奖励归因:In2AI 用 8B 开源模型在 MindGames Arena 击败 GPT-5 夺冠

多智能体战略交互中,语言模型代理的每一步行动质量可能取决于未来从未发生的事件、违反游戏规则的走法或其他玩家的决策。标准强化学习假设每一步都能获得奖励,但在这种跨时间、跨智能体纠缠的设定下,该假设不再成立。为此,In2AI 团队提出了一种 延迟逐步奖励归因 方法,结合 资格门控回合生命周期与后处理流水线,仅在回合结束时计算奖励,再根据任务特定语义将其回溯至原始步骤,并排除缺乏有效依赖信息的步骤。

该方案还集成了 vLLM 连续批处理 实现异步 rollout 生成、基于课程学习的对手采样 以及 多层分层批次构建,从而在多智能体环境中实现稳定、样本高效的强化学习训练。

在 NeurIPS 2025 的 MindGames Arena 泛化赛道 上,团队使用一个 8B 参数的开源模型 进行训练,在正面对决中 匹配甚至超越了 GPT-5 等更大规模的专有系统,一举夺得 开放赛道高效赛道(≤8B 参数) 的双料冠军。

核心创新点

  • 延迟逐步奖励归因:回合结束后统一计算奖励,按语义回溯到对应步骤,避免中途奖励缺失或误导。
  • 资格门控:排除无效步骤(如违规走法),确保训练数据质量。
  • 异步 rollout 生成:利用 vLLM 连续批处理提升采样效率。
  • 课程对手采样:从易到难安排对手,加速策略收敛。
  • 多层分层批次构建:平衡不同场景下的样本分布,提升训练稳定性。

意义与启示

这一成果表明,开源小模型在复杂多智能体任务中完全有能力超越专有巨无霸。延迟奖励归因方法解决了多智能体强化学习中的关键瓶颈——信用分配问题,为训练更通用、更高效的 AI 智能体提供了新范式。未来,该技术有望应用于 游戏 AI、机器人协作、自动驾驶多车博弈 等需要长期策略规划的领域。

延伸阅读

  1. Grokers:在类型化知识图谱上实现自下而上的归纳理解与写入时智能
  2. 通用量子Transformer:用5个量子比特实现精确数学推理,超越经典神经网络
  3. 最优传输理论助力贝叶斯优化:海上风电场布局设计效率翻倍
查看原文