SheepNav
精选今天0 投票

超越并行采样:多样查询初始化如何提升智能体搜索性能

在智能体搜索的测试时扩展(test-time scaling)中,增加搜索深度(更多轮次和token)或广度(更多并行轨迹)是常见策略。然而,一篇来自 arXiv 的新论文(arXiv:2606.17209)指出,标准的并行采样方法存在边际收益递减问题,根源在于第一轮查询的冗余性。研究者提出了一种名为 DivInit 的免训练干预方法,通过在第一轮生成多样化的查询来提升并行搜索的效率,在多个基准上取得了显著改进。

问题所在:并行采样的“第一轮瓶颈”

当智能体进行平行搜索时,通常会对同一个问题采样 k 个独立的第一轮查询,然后分别沿着这些查询展开搜索轨迹。论文发现,由于模型倾向于生成相似的初始查询,这些轨迹往往检索到重叠的证据,导致后续轮次的信息趋同,限制了并行采样的收益。换句话说,平行搜索的“广度”被第一轮的查询同质性消解了。

DivInit 的解决方案:一次调用,多样种子

DivInit 的核心思路是:从一次大语言模型调用中生成 n 个候选第一轮查询,然后从中挑选出 k 个差异最大的查询作为起始种子,再对这些种子进行平行轨迹搜索。这种方法不需要额外训练,直接替换原有的 k 次独立采样过程,计算开销与标准并行采样相当。

实验结果:稳定提升 5-7 个点

研究团队在 5 个开源模型(包括 Llama、Mistral 等)和 8 个多跳问答基准(如 HotpotQA、2WikiMultihop)上进行了测试。结果显示,DivInit 在所有设置下都一致优于标准并行采样,在匹配计算量的条件下,平均提升 5 到 7 个百分点。尤其在需要多步推理的复杂问题上,多样性带来的收益更为明显。

行业意义:测试时扩展的新方向

这项研究对智能体搜索的工程实践具有重要启示。当前许多系统通过增加并行轨迹数量来提升性能,但 DivInit 表明,质量比数量更重要。通过简单的查询多样性干预,就能在相同计算预算下获得更好结果。该方法无需修改模型权重,易于集成到现有框架中,有望成为智能体搜索的标准组件。论文代码已公开,正在 EMNLP 2026 审稿中。

对于 AI 从业者来说,DivInit 提供了一个低成本、高回报的优化切入点,尤其适合需要实时响应的搜索场景。未来,将查询多样性与其他扩展策略(如深度扩展)结合,可能带来进一步的性能突破。

延伸阅读

  1. 技能约束下的模型预测控制:为韧性制造供应链注入智能决策
  2. 当规则学会进化:自我演化的法律案例检索智能体
  3. SkillChain-Gym:一个面向再技能培训的生产库存控制基准测试
查看原文