SheepNav
精选今天0 投票

SkillLens:自适应多粒度技能复用,让LLM智能体更高效

大型语言模型(LLM)智能体在执行复杂任务时,常依赖“技能库”来复用过去学到的经验。然而,现有技能库通常将技能视为扁平的、单一粒度的提示块,这导致了一个两难困境:粗粒度的技能可能引入无关甚至误导性的上下文,而重写整个技能又成本高昂且往往不必要。为了解决这一问题,来自澳大利亚的研究团队提出了 SkillLens——一种层级化技能进化框架,它通过多粒度技能复用,在保持高效的同时显著提升了智能体的任务成功率。

核心创新:四层技能图与混合粒度检索

SkillLens 的核心在于将技能组织成一个 四层图结构策略(Policies)策略(Strategies)流程(Procedures)原语(Primitives)。这四层由抽象到具体,形成了一个层次分明的技能图谱。当面对新任务时,SkillLens 首先检索语义相关的“技能种子”,然后通过度校正随机游走在技能图上扩展候选节点。接着,一个验证器会决定每个被访问的技能单元是否应被直接接受、分解、重写或跳过。这种机制允许智能体直接复用兼容的子技能,仅对局部不匹配的部分进行适应性调整,从而在相关性与成本之间取得平衡

理论保证与实验验证

研究团队从理论上证明,在稀疏不匹配假设下,混合粒度适应的成本是次线性的,并且进化更新规则能单调提升验证目标直至局部最优。在 MuLocbench(缺陷定位)ALFWorld(具身任务) 两个基准测试中,SkillLens 均显著优于强基线方法:在缺陷定位任务上,Acc@1 提升高达 6.31 个百分点;在 ALFWorld 中,智能体成功率从 45.00% 提升至 51.31%

行业意义与未来展望

SkillLens 的提出,为 LLM 智能体的技能复用提供了一种更精细、更经济的方案。它不再将技能视为不可分割的“黑盒”,而是允许在多个粒度上灵活调整,这类似于人类学习中“举一反三”的能力——保留核心经验,替换不适用的细节。未来,这一框架有望应用于机器人控制、代码生成、对话系统等需要快速适应新场景的领域,推动 LLM 智能体从“死记硬背”走向“灵活变通”。

延伸阅读

  1. PLACO:一种面向人机协同的成本效益多阶段框架
  2. MemQ:将Q学习融入基于溯源DAG的自演化记忆智能体
  3. 区分后训练中的能力激发与能力创造:自由能视角
查看原文