DIVE方法：提升任务多样性，增强AI工具使用泛化能力

智能体任务合成的“多样性困境”

当前，为具备工具使用能力的大语言模型（LLM）合成训练任务已成为提升其智能体（Agent）性能的重要途径。然而，一个核心挑战在于：当任务或工具集发生变化时，模型的泛化能力往往表现脆弱。近期一篇题为《DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use》的论文，将这种“脆弱性”的根源指向了合成任务本身的多样性不足。

传统方法在合成任务时面临一个两难：一方面，为了有效训练，生成的任务必须可执行且可验证；另一方面，为了实现强大的泛化能力，任务需要覆盖广泛的工具类型、工具集组合以及异构的工具使用模式。简单地增加任务数量，往往难以突破这种结构性限制。

DIVE：一种“证据驱动”的逆向合成方法

为了破解这一难题，研究团队提出了名为 DIVE 的新方法。其核心思想是“逆向而行”：

先执行，后推导：不同于传统上先定义任务再寻找工具执行，DIVE 首先让智能体去实际执行来自真实世界的、多样化的工具操作。
从执行痕迹中反推任务：系统会严格地从这些执行过程中产生的“痕迹”反向推导出能够被这些痕迹所蕴含的任务。这种方法在构建之初就为任务提供了坚实的“事实依据”。

DIVE 通过两个可控的维度来系统性扩展任务的结构多样性：

工具池覆盖度：纳入尽可能多不同类型的工具。
单任务工具集多样性：在单个任务中组合使用多种工具。

此外，DIVE 还设计了一个 “证据收集-任务推导”循环。这个机制能够自动诱导出丰富的、多步骤的工具使用模式。在实验中，该方法在五个不同领域整合了多达 373 种工具，生成了大规模、高多样性的任务数据。

实验结果：多样性优于数量

研究团队使用 DIVE 生成的数据（包含 4.8 万条监督微调数据和 3.2 千条强化学习数据）对 Qwen3-8B 模型进行训练。评估结果显示，在 9 个分布外（OOD）基准测试中，模型的平均性能提升了 +22 个百分点，并且显著超越了此前最强的 8B 参数基线模型，优势达到 +68 个百分点。

更具启发性的是，通过控制变量分析，研究发现：对于提升 OOD 泛化能力，扩展任务多样性比单纯增加任务数量更为有效。即使使用少 4 倍的数据，多样性优先的策略依然能带来更优的泛化表现。这一发现为未来高效训练通用工具使用智能体提供了明确的方向。

对 AI 智能体发展的启示

DIVE 的工作凸显了高质量、结构化数据合成在智能体开发中的关键作用。它表明，突破当前工具使用模型泛化瓶颈的关键，可能不在于模型的架构或参数规模，而在于训练数据的“质”——即其内在的多样性和真实性。这种方法论有望推动 AI 智能体从在狭窄、预设任务上表现良好，向在开放、动态的真实世界场景中灵活、可靠地使用各种工具迈进。

DIVE：通过提升智能体任务多样性，实现通用化工具使用

智能体任务合成的“多样性困境”

DIVE：一种“证据驱动”的逆向合成方法

实验结果：多样性优于数量

对 AI 智能体发展的启示

延伸阅读

相关资讯