超越并行采样:多样查询初始化如何提升智能体搜索性能
在智能体搜索的测试时扩展(test-time scaling)中,增加搜索深度(更多轮次和token)或广度(更多并行轨迹)是常见策略。然而,一篇来自 arXiv 的新论文(arXiv:2606.17209)指出,标准的并行采样方法存在边际收益递减问题,根源在于第一轮查询的冗余性。研究者提出了一种名为 DivInit 的免训练干预方法,通过在第一轮生成多样化的查询来提升并行搜索的效率,在多个基准上取得了显著改进。
问题所在:并行采样的“第一轮瓶颈”
当智能体进行平行搜索时,通常会对同一个问题采样 k 个独立的第一轮查询,然后分别沿着这些查询展开搜索轨迹。论文发现,由于模型倾向于生成相似的初始查询,这些轨迹往往检索到重叠的证据,导致后续轮次的信息趋同,限制了并行采样的收益。换句话说,平行搜索的“广度”被第一轮的查询同质性消解了。
DivInit 的解决方案:一次调用,多样种子
DivInit 的核心思路是:从一次大语言模型调用中生成 n 个候选第一轮查询,然后从中挑选出 k 个差异最大的查询作为起始种子,再对这些种子进行平行轨迹搜索。这种方法不需要额外训练,直接替换原有的 k 次独立采样过程,计算开销与标准并行采样相当。
实验结果:稳定提升 5-7 个点
研究团队在 5 个开源模型(包括 Llama、Mistral 等)和 8 个多跳问答基准(如 HotpotQA、2WikiMultihop)上进行了测试。结果显示,DivInit 在所有设置下都一致优于标准并行采样,在匹配计算量的条件下,平均提升 5 到 7 个百分点。尤其在需要多步推理的复杂问题上,多样性带来的收益更为明显。
行业意义:测试时扩展的新方向
这项研究对智能体搜索的工程实践具有重要启示。当前许多系统通过增加并行轨迹数量来提升性能,但 DivInit 表明,质量比数量更重要。通过简单的查询多样性干预,就能在相同计算预算下获得更好结果。该方法无需修改模型权重,易于集成到现有框架中,有望成为智能体搜索的标准组件。论文代码已公开,正在 EMNLP 2026 审稿中。
对于 AI 从业者来说,DivInit 提供了一个低成本、高回报的优化切入点,尤其适合需要实时响应的搜索场景。未来,将查询多样性与其他扩展策略(如深度扩展)结合,可能带来进一步的性能突破。