新上线今天0 投票
CoFi-PGMA:多智能体大模型在过滤反馈下的反事实策略梯度学习
背景:多智能体 LLM 架构的兴起与学习困境
随着大语言模型(LLM)部署日益复杂,多智能体架构正成为主流。无论是通过路由机制让多个模型竞争,还是让它们协作生成最终答案,系统内部的反馈信号都会经过“过滤”,导致每个智能体接收到的学习信号失真。
具体而言,路由机制会产生“选择门控反馈”——只有被选中的响应才会得到评估,落选者则无反馈;而协作机制则产生“共享奖励”——最终结果归功于全体,但个体贡献被模糊。这两种场景下,标准 RLHF 目标(针对单一部署策略设计)变得不再适用。
CoFi-PGMA:统一框架应对过滤反馈
针对上述挑战,来自 Stela Tong 和 Elai Ben-Gal 的研究团队提出了 CoFi-PGMA(Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs)。这是一个统一的学习框架,核心思想是基于边际贡献推导出每个智能体的反事实训练目标,从而修正路由和协作机制下的学习信号。
- 路由系统:该目标等价于对选择门控反馈进行离策略修正。
- 协作系统:该目标简化为留一法差异奖励,用于信用分配。
理论分析与实践算法
论文进一步分析了 softmax 路由如何引入风险敏感激励,并提供了实用的训练算法,整合了反事实估计器、多轮感知奖励以及策略优化方法。研究者在真实世界推理数据集上验证了该方法的有效性。
行业意义
这项研究为多智能体 LLM 系统的训练提供了理论基础和实用工具。随着多智能体协作成为提升 LLM 能力的重要方向(如复杂推理、任务分解),如何高效且公平地训练每个智能体将直接决定系统整体性能。CoFi-PGMA 提出的反事实学习框架有望推动该领域从“黑盒调优”走向“可解释信用分配”。
论文以 17 页篇幅呈现,目前已在 arXiv 上公开(编号 2604.22785),暂无公开代码。