8B 开源模型击败 GPT-5：In2AI 延迟奖励归因方法详解

多智能体战略交互中，语言模型代理的每一步行动质量可能取决于未来从未发生的事件、违反游戏规则的走法或其他玩家的决策。标准强化学习假设每一步都能获得奖励，但在这种跨时间、跨智能体纠缠的设定下，该假设不再成立。为此，In2AI 团队提出了一种 延迟逐步奖励归因 方法，结合 资格门控、回合生命周期与后处理流水线，仅在回合结束时计算奖励，再根据任务特定语义将其回溯至原始步骤，并排除缺乏有效依赖信息的步骤。

该方案还集成了 vLLM 连续批处理 实现异步 rollout 生成、基于课程学习的对手采样 以及 多层分层批次构建，从而在多智能体环境中实现稳定、样本高效的强化学习训练。

在 NeurIPS 2025 的 MindGames Arena 泛化赛道 上，团队使用一个 8B 参数的开源模型 进行训练，在正面对决中 匹配甚至超越了 GPT-5 等更大规模的专有系统，一举夺得 开放赛道 和 高效赛道（≤8B 参数） 的双料冠军。

核心创新点

延迟逐步奖励归因：回合结束后统一计算奖励，按语义回溯到对应步骤，避免中途奖励缺失或误导。
资格门控：排除无效步骤（如违规走法），确保训练数据质量。
异步 rollout 生成：利用 vLLM 连续批处理提升采样效率。
课程对手采样：从易到难安排对手，加速策略收敛。
多层分层批次构建：平衡不同场景下的样本分布，提升训练稳定性。

意义与启示

这一成果表明，开源小模型在复杂多智能体任务中完全有能力超越专有巨无霸。延迟奖励归因方法解决了多智能体强化学习中的关键瓶颈——信用分配问题，为训练更通用、更高效的 AI 智能体提供了新范式。未来，该技术有望应用于 游戏 AI、机器人协作、自动驾驶多车博弈 等需要长期策略规划的领域。

延迟逐步奖励归因：In2AI 用 8B 开源模型在 MindGames Arena 击败 GPT-5 夺冠

核心创新点

意义与启示

延伸阅读

相关资讯