Skim: 推测执行框架让网络代理成本降低1.9倍，延迟减少33%

网络代理（Web Agent）在执行任务时通常需要调用前沿模型进行推理、渲染浏览器并采用ReAct风格的规划，这些步骤无论任务简单与否都会完整执行，导致高昂的成本和延迟。来自微软研究院和普林斯顿大学的研究人员提出了 Skim，一个基于推测执行（Speculative Execution）的框架，旨在利用专建网站的可预测结构，大幅降低网络代理的运行开销。

核心洞察：网站的结构化可预测性

Skim 的关键观察是，许多专为特定任务设计的网站（如电商、票务、查询类网站）在 URL 模式、答案格式以及任务到操作轨迹的映射上保持稳定。例如，对于“查询天气”或“搜索商品”这类重复性查询，其操作路径几乎一致。因此，大部分查询无需完整执行重型组件，而可以通过更轻量的路径快速完成。

工作流程：离线分析与在线推测

Skim 包含两个主要阶段：

离线分析（Offline Profiler）：针对每个目标网站，预先捕获其稳定的结构化模式，包括 URL 模板、答案提取规则以及任务与轨迹的映射关系。
在线推测（Runtime Speculation）：当用户提交查询时，Skim 首先尝试将查询匹配到预定义的模板。如果匹配成功，它直接合成目标 URL，并用一个小型模型从页面中提取答案。随后，一个轻量级验证器会检查输出是否与查询和模式一致。如果验证通过，则快速返回结果；如果验证失败（即推测错误），则回退到完整的代理流程，但此时完整代理可以从快速路径提供的最终 URL 开始，从而保留上游轨迹的进展，避免从头执行。

性能表现：成本降低近半，延迟减少三成

在三个标准网络代理基准（WebVoyager、AgentOccam、BrowserUse）上，结合三种骨干代理（WebVoyager、AgentOccam、BrowserUse），Skim 实现了：

中位数任务成本降低 1.9 倍（即成本减少约 47%）
中位数延迟降低 33.4%
零精度损失，即准确率与完整代理持平

这意味着，在大多数情况下，Skim 能够以极低的代价完成用户查询，仅在少数推测错误时才调用完整代理，从而在保证准确性的前提下大幅提升效率。

行业意义与未来展望

当前，网络代理的部署成本主要来自大模型推理、浏览器渲染和复杂的规划循环。Skim 的思路提供了一种实用且优雅的优化方向：通过离线结构化知识将在线推理负担转移到轻量级匹配和验证。这种方法不仅适用于现有网站，未来还可扩展到动态生成的页面或更复杂的多步任务。不过，Skim 的有效性高度依赖于网站结构的稳定性，对于频繁改版或非结构化网站，其收益可能受限。总体而言，Skim 为网络代理的高效落地提供了一种成本可控、部署友好的解决方案。

Skim：为快速高效的网络代理打造的推测执行框架

核心洞察：网站的结构化可预测性

工作流程：离线分析与在线推测

性能表现：成本降低近半，延迟减少三成

行业意义与未来展望

延伸阅读

相关资讯