SheepNav
精选14天前0 投票

SkillSmith:将Agent技能编译为边界引导的运行时接口

背景与问题

在大语言模型(LLM)驱动的Agent系统中,技能(skills) 已被广泛用于赋予模型处理特定任务的能力。现有框架通常将技能以上下文形式注入Agent的推理循环:当运行时任务匹配到某个技能后,整个技能内容被作为提示词送入模型,随后模型进行推理和规划。然而,这种方式带来了两大冗余问题:一是注入大量与当前任务无关的上下文,二是每次执行都需要重复进行技能相关的推理与规划,导致Token消耗高、推理延迟大。

核心思路:边界优先的编译-运行时框架

针对上述问题,来自上海交通大学等机构的研究者提出了 SkillSmith,一种创新的边界优先(boundary-first)编译-运行时框架。其核心思想是:在离线阶段将技能包编译为最小化的可执行接口,而非在运行时直接投喂原始技能文本。

具体而言,SkillSmith 首先从技能中提取细粒度的操作边界(operational boundaries)——即技能中每个步骤的输入、输出、前置条件与后置条件。然后,将这些边界编译为轻量级的运行时接口。在运行时,Agent 只需动态访问和执行与当前任务相关的接口组件,无需加载整个技能上下文,也无需重复进行技能层面的推理规划,从而大幅减少不必要的上下文注入和推理开销。

性能提升:Token消耗减半,推理速度翻倍

在研究者构建的 SkillsBench 基准上,SkillSmith 与直接使用原始技能(raw-skills)的方案进行了对比。结果显示:

  • 求解阶段Token用量减少 57.44%
  • 思考迭代次数减少 42.99%
  • 求解时间缩短 50.57%(加速2.02倍)
  • 按Token计费的货币成本降低 57.44%

这些数据充分证明了 SkillSmith 在效率优化上的显著优势。

额外亮点:跨模型复用与能力迁移

更引人注目的是,SkillSmith 编译后的制品(compiled artifacts)可以被不同模型复用。例如,由更强模型(如GPT-4)编译得到的接口,可以被更小或更高效的运行时模型(如Llama 3)直接调用,甚至在原始技能无法被小模型正确解读的情况下,仍能保持较高的任务准确率。这意味着 SkillSmith 不仅优化了单次执行效率,还为模型间的技能迁移提供了可行路径,降低了 Agent 系统对大型模型的过度依赖。

总结与展望

SkillSmith 从一个细微但关键的视角切入——技能的使用方式——并提出了“边界优先编译”这一优雅的解决方案。它不改变技能本身的内容,而是通过重新组织技能的表示与调用方式,实现了效率的大幅提升。这种思路对于构建大规模、低成本的Agent系统具有重要价值。未来,该框架或许能进一步扩展到多技能协作、动态技能组合等更复杂的场景。

论文及代码已公开,感兴趣的读者可访问 arXiv 或项目仓库获取更多细节。

延伸阅读

  1. 结构诱导信息助力重根列文树搜索:隐式子任务分解的新范式
  2. EHRBench:基于电子健康记录的大模型临床决策能力自动化评估基准
  3. 不确定性感知与时间调控的专家建议:让自动驾驶强化学习更安全
查看原文