DIVE:通过提升智能体任务多样性,实现通用化工具使用
智能体任务合成的“多样性困境”
当前,为具备工具使用能力的大语言模型(LLM)合成训练任务已成为提升其智能体(Agent)性能的重要途径。然而,一个核心挑战在于:当任务或工具集发生变化时,模型的泛化能力往往表现脆弱。近期一篇题为《DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use》的论文,将这种“脆弱性”的根源指向了合成任务本身的多样性不足。
传统方法在合成任务时面临一个两难:一方面,为了有效训练,生成的任务必须可执行且可验证;另一方面,为了实现强大的泛化能力,任务需要覆盖广泛的工具类型、工具集组合以及异构的工具使用模式。简单地增加任务数量,往往难以突破这种结构性限制。
DIVE:一种“证据驱动”的逆向合成方法
为了破解这一难题,研究团队提出了名为 DIVE 的新方法。其核心思想是“逆向而行”:
- 先执行,后推导:不同于传统上先定义任务再寻找工具执行,DIVE 首先让智能体去实际执行来自真实世界的、多样化的工具操作。
- 从执行痕迹中反推任务:系统会严格地从这些执行过程中产生的“痕迹”反向推导出能够被这些痕迹所蕴含的任务。这种方法在构建之初就为任务提供了坚实的“事实依据”。
DIVE 通过两个可控的维度来系统性扩展任务的结构多样性:
- 工具池覆盖度:纳入尽可能多不同类型的工具。
- 单任务工具集多样性:在单个任务中组合使用多种工具。
此外,DIVE 还设计了一个 “证据收集-任务推导”循环。这个机制能够自动诱导出丰富的、多步骤的工具使用模式。在实验中,该方法在五个不同领域整合了多达 373 种工具,生成了大规模、高多样性的任务数据。
实验结果:多样性优于数量
研究团队使用 DIVE 生成的数据(包含 4.8 万条监督微调数据和 3.2 千条强化学习数据)对 Qwen3-8B 模型进行训练。评估结果显示,在 9 个分布外(OOD)基准测试中,模型的平均性能提升了 +22 个百分点,并且显著超越了此前最强的 8B 参数基线模型,优势达到 +68 个百分点。
更具启发性的是,通过控制变量分析,研究发现:对于提升 OOD 泛化能力,扩展任务多样性比单纯增加任务数量更为有效。即使使用少 4 倍的数据,多样性优先的策略依然能带来更优的泛化表现。这一发现为未来高效训练通用工具使用智能体提供了明确的方向。
对 AI 智能体发展的启示
DIVE 的工作凸显了高质量、结构化数据合成在智能体开发中的关键作用。它表明,突破当前工具使用模型泛化瓶颈的关键,可能不在于模型的架构或参数规模,而在于训练数据的“质”——即其内在的多样性和真实性。这种方法论有望推动 AI 智能体从在狭窄、预设任务上表现良好,向在开放、动态的真实世界场景中灵活、可靠地使用各种工具迈进。


