DivInit：多样查询初始化提升智能体搜索性能，超越并行采样

在智能体搜索的测试时扩展（test-time scaling）中，增加搜索深度（更多轮次和token）或广度（更多并行轨迹）是常见策略。然而，一篇来自 arXiv 的新论文（arXiv:2606.17209）指出，标准的并行采样方法存在边际收益递减问题，根源在于第一轮查询的冗余性。研究者提出了一种名为 DivInit 的免训练干预方法，通过在第一轮生成多样化的查询来提升并行搜索的效率，在多个基准上取得了显著改进。

问题所在：并行采样的“第一轮瓶颈”

当智能体进行平行搜索时，通常会对同一个问题采样 k 个独立的第一轮查询，然后分别沿着这些查询展开搜索轨迹。论文发现，由于模型倾向于生成相似的初始查询，这些轨迹往往检索到重叠的证据，导致后续轮次的信息趋同，限制了并行采样的收益。换句话说，平行搜索的“广度”被第一轮的查询同质性消解了。

DivInit 的解决方案：一次调用，多样种子

DivInit 的核心思路是：从一次大语言模型调用中生成 n 个候选第一轮查询，然后从中挑选出 k 个差异最大的查询作为起始种子，再对这些种子进行平行轨迹搜索。这种方法不需要额外训练，直接替换原有的 k 次独立采样过程，计算开销与标准并行采样相当。

实验结果：稳定提升 5-7 个点

研究团队在 5 个开源模型（包括 Llama、Mistral 等）和 8 个多跳问答基准（如 HotpotQA、2WikiMultihop）上进行了测试。结果显示，DivInit 在所有设置下都一致优于标准并行采样，在匹配计算量的条件下，平均提升 5 到 7 个百分点。尤其在需要多步推理的复杂问题上，多样性带来的收益更为明显。

行业意义：测试时扩展的新方向

这项研究对智能体搜索的工程实践具有重要启示。当前许多系统通过增加并行轨迹数量来提升性能，但 DivInit 表明，质量比数量更重要。通过简单的查询多样性干预，就能在相同计算预算下获得更好结果。该方法无需修改模型权重，易于集成到现有框架中，有望成为智能体搜索的标准组件。论文代码已公开，正在 EMNLP 2026 审稿中。

对于 AI 从业者来说，DivInit 提供了一个低成本、高回报的优化切入点，尤其适合需要实时响应的搜索场景。未来，将查询多样性与其他扩展策略（如深度扩展）结合，可能带来进一步的性能突破。

超越并行采样：多样查询初始化如何提升智能体搜索性能

问题所在：并行采样的“第一轮瓶颈”

DivInit 的解决方案：一次调用，多样种子

实验结果：稳定提升 5-7 个点

行业意义：测试时扩展的新方向

延伸阅读

相关资讯