SheepNav
精选2天前0 投票

Skim:为快速高效的网络代理打造的推测执行框架

网络代理(Web Agent)在执行任务时通常需要调用前沿模型进行推理、渲染浏览器并采用ReAct风格的规划,这些步骤无论任务简单与否都会完整执行,导致高昂的成本和延迟。来自微软研究院和普林斯顿大学的研究人员提出了 Skim,一个基于推测执行(Speculative Execution)的框架,旨在利用专建网站的可预测结构,大幅降低网络代理的运行开销。

核心洞察:网站的结构化可预测性

Skim 的关键观察是,许多专为特定任务设计的网站(如电商、票务、查询类网站)在 URL 模式、答案格式以及任务到操作轨迹的映射上保持稳定。例如,对于“查询天气”或“搜索商品”这类重复性查询,其操作路径几乎一致。因此,大部分查询无需完整执行重型组件,而可以通过更轻量的路径快速完成。

工作流程:离线分析与在线推测

Skim 包含两个主要阶段:

  1. 离线分析(Offline Profiler):针对每个目标网站,预先捕获其稳定的结构化模式,包括 URL 模板、答案提取规则以及任务与轨迹的映射关系。
  2. 在线推测(Runtime Speculation):当用户提交查询时,Skim 首先尝试将查询匹配到预定义的模板。如果匹配成功,它直接合成目标 URL,并用一个小型模型从页面中提取答案。随后,一个轻量级验证器会检查输出是否与查询和模式一致。如果验证通过,则快速返回结果;如果验证失败(即推测错误),则回退到完整的代理流程,但此时完整代理可以从快速路径提供的最终 URL 开始,从而保留上游轨迹的进展,避免从头执行。

性能表现:成本降低近半,延迟减少三成

在三个标准网络代理基准(WebVoyager、AgentOccam、BrowserUse)上,结合三种骨干代理(WebVoyager、AgentOccam、BrowserUse),Skim 实现了:

  • 中位数任务成本降低 1.9 倍(即成本减少约 47%)
  • 中位数延迟降低 33.4%
  • 零精度损失,即准确率与完整代理持平

这意味着,在大多数情况下,Skim 能够以极低的代价完成用户查询,仅在少数推测错误时才调用完整代理,从而在保证准确性的前提下大幅提升效率。

行业意义与未来展望

当前,网络代理的部署成本主要来自大模型推理、浏览器渲染和复杂的规划循环。Skim 的思路提供了一种实用且优雅的优化方向:通过离线结构化知识将在线推理负担转移到轻量级匹配和验证。这种方法不仅适用于现有网站,未来还可扩展到动态生成的页面或更复杂的多步任务。不过,Skim 的有效性高度依赖于网站结构的稳定性,对于频繁改版或非结构化网站,其收益可能受限。总体而言,Skim 为网络代理的高效落地提供了一种成本可控、部署友好的解决方案。

延伸阅读

  1. 立场:开发“数据探针”以根本理解数据如何影响大模型性能
  2. 文档AI落地实战:面向OCR与大模型管线的微服务架构
  3. 个人健康记录能否让AI更懂你?谷歌Gemini 3.0实测揭示潜力与短板
查看原文