TeamTR:用于多智能体LLM协调的信任区域微调方法
多智能体大语言模型(LLM)系统在复杂推理任务中展现出潜力,但近期评估表明,这类系统往往不如单模型基线表现。来自《TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination》的研究揭示了一个结构性失败模式:在共享上下文团队的顺序微调中,更新一个智能体会改变团队的上下文分布,当后续更新在缓存的轨迹上评估时,这种不匹配会不断累积。研究者将此形式化为复合占据偏移(compounding occupancy shift),并证明在陈旧占据(stale-occupancy)评估下,惩罚项随智能体数量呈二次方增长,而中间占据(intermediate-occupancy)评估可将此降低为线性增长。
为解决该问题,论文提出TeamTR,一种信任区域框架。该方法在每个组件更新后重新采样轨迹,并对每个智能体施加散度控制,从而获得严格的每更新和每阶段改进下界。实验表明,TeamTR在多个任务上平均超越单智能体和顺序微调基线7.1%,有效缓解了协调退化问题,并支持即插即用的组件替换。相关代码已开源。
研究背景与问题
多智能体LLM系统通常采用共享上下文的方式进行顺序微调:先更新一个智能体,再基于其输出更新下一个。然而,这种策略存在根本缺陷——更新后的智能体会改变后续智能体所看到的上下文分布。当使用旧轨迹评估新策略时,评估结果会产生偏差,且这种偏差会随着智能体数量增加而急剧放大。
核心贡献
- 形式化复合占据偏移:证明陈旧占据评估的惩罚项为O(N²),而中间占据评估为O(N),其中N为智能体数量。
- 提出TeamTR框架:通过信任区域约束和轨迹重采样,保证每次更新都有理论上的改进下界。
- 实验验证:在多个多智能体推理任务中,TeamTR显著优于现有方法,平均提升7.1%,且能有效防止协调退化。
技术细节
TeamTR的核心思想是信任区域(trust-region)与轨迹重采样的结合。每次更新一个智能体后,立即用新策略重新生成后续智能体的交互轨迹,避免使用过时的上下文。同时,通过KL散度约束控制每个智能体的更新幅度,防止策略突变导致团队协作崩溃。
实验与意义
在包括数学推理、代码生成等任务上,TeamTR不仅提升了整体性能,还表现出良好的可扩展性——支持在训练后替换单个智能体组件而无需重新训练整个系统。这为构建更鲁棒、可维护的多智能体LLM应用提供了新思路。
该工作已被ICML 2026接收,代码已公开。