TeamTR：多智能体LLM协调的信任区域微调方法

多智能体大语言模型（LLM）系统在复杂推理任务中展现出潜力，但近期评估表明，这类系统往往不如单模型基线表现。来自《TeamTR: Trust-Region Fine-Tuning for Multi-Agent LLM Coordination》的研究揭示了一个结构性失败模式：在共享上下文团队的顺序微调中，更新一个智能体会改变团队的上下文分布，当后续更新在缓存的轨迹上评估时，这种不匹配会不断累积。研究者将此形式化为复合占据偏移（compounding occupancy shift），并证明在陈旧占据（stale-occupancy）评估下，惩罚项随智能体数量呈二次方增长，而中间占据（intermediate-occupancy）评估可将此降低为线性增长。

为解决该问题，论文提出TeamTR，一种信任区域框架。该方法在每个组件更新后重新采样轨迹，并对每个智能体施加散度控制，从而获得严格的每更新和每阶段改进下界。实验表明，TeamTR在多个任务上平均超越单智能体和顺序微调基线7.1%，有效缓解了协调退化问题，并支持即插即用的组件替换。相关代码已开源。

研究背景与问题

多智能体LLM系统通常采用共享上下文的方式进行顺序微调：先更新一个智能体，再基于其输出更新下一个。然而，这种策略存在根本缺陷——更新后的智能体会改变后续智能体所看到的上下文分布。当使用旧轨迹评估新策略时，评估结果会产生偏差，且这种偏差会随着智能体数量增加而急剧放大。

核心贡献

形式化复合占据偏移：证明陈旧占据评估的惩罚项为O(N²)，而中间占据评估为O(N)，其中N为智能体数量。
提出TeamTR框架：通过信任区域约束和轨迹重采样，保证每次更新都有理论上的改进下界。
实验验证：在多个多智能体推理任务中，TeamTR显著优于现有方法，平均提升7.1%，且能有效防止协调退化。

技术细节

TeamTR的核心思想是信任区域（trust-region）与轨迹重采样的结合。每次更新一个智能体后，立即用新策略重新生成后续智能体的交互轨迹，避免使用过时的上下文。同时，通过KL散度约束控制每个智能体的更新幅度，防止策略突变导致团队协作崩溃。

实验与意义

在包括数学推理、代码生成等任务上，TeamTR不仅提升了整体性能，还表现出良好的可扩展性——支持在训练后替换单个智能体组件而无需重新训练整个系统。这为构建更鲁棒、可维护的多智能体LLM应用提供了新思路。

该工作已被ICML 2026接收，代码已公开。

TeamTR：用于多智能体LLM协调的信任区域微调方法

研究背景与问题

核心贡献

技术细节

实验与意义

延伸阅读

相关资讯