CoFi-PGMA：多智能体LLM反事实策略梯度学习框架

背景：多智能体 LLM 架构的兴起与学习困境

随着大语言模型（LLM）部署日益复杂，多智能体架构正成为主流。无论是通过路由机制让多个模型竞争，还是让它们协作生成最终答案，系统内部的反馈信号都会经过“过滤”，导致每个智能体接收到的学习信号失真。

具体而言，路由机制会产生“选择门控反馈”——只有被选中的响应才会得到评估，落选者则无反馈；而协作机制则产生“共享奖励”——最终结果归功于全体，但个体贡献被模糊。这两种场景下，标准 RLHF 目标（针对单一部署策略设计）变得不再适用。

CoFi-PGMA：统一框架应对过滤反馈

针对上述挑战，来自 Stela Tong 和 Elai Ben-Gal 的研究团队提出了 CoFi-PGMA（Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs）。这是一个统一的学习框架，核心思想是基于边际贡献推导出每个智能体的反事实训练目标，从而修正路由和协作机制下的学习信号。

路由系统：该目标等价于对选择门控反馈进行离策略修正。
协作系统：该目标简化为留一法差异奖励，用于信用分配。

理论分析与实践算法

论文进一步分析了 softmax 路由如何引入风险敏感激励，并提供了实用的训练算法，整合了反事实估计器、多轮感知奖励以及策略优化方法。研究者在真实世界推理数据集上验证了该方法的有效性。

行业意义

这项研究为多智能体 LLM 系统的训练提供了理论基础和实用工具。随着多智能体协作成为提升 LLM 能力的重要方向（如复杂推理、任务分解），如何高效且公平地训练每个智能体将直接决定系统整体性能。CoFi-PGMA 提出的反事实学习框架有望推动该领域从“黑盒调优”走向“可解释信用分配”。

论文以 17 页篇幅呈现，目前已在 arXiv 上公开（编号 2604.22785），暂无公开代码。

CoFi-PGMA：多智能体大模型在过滤反馈下的反事实策略梯度学习

背景：多智能体 LLM 架构的兴起与学习困境

CoFi-PGMA：统一框架应对过滤反馈

理论分析与实践算法

行业意义

延伸阅读

相关资讯