SheepNav
精选今天0 投票

COSPALY框架:让LLM在长时任务中学会“积累技能”

大型语言模型(LLM)在复杂游戏等长时交互环境中常因缺乏结构化技能积累机制而表现不稳定。最新研究提出 COSPALY 框架,通过让 LLM 决策代理与技能库代理协同进化,显著提升长时任务表现。实验显示,基于 8B 模型即可超越多个前沿基线,平均奖励提升超 25%。

长时任务挑战:LLM 的“技能困境”

在需要多步推理、技能链式调用和延迟奖励的交互环境(如复杂游戏)中,LLM 常面临“技能困境”——它们能生成合理单步动作却难以跨回合复用结构化技能。传统方法要么依赖人工预定义技能库,要么让模型从零开始推理,导致泛化性和效率不足。

COSPALY:双代理“技能军备竞赛”

来自马里兰大学等机构的研究团队提出 COSPALY(Co-Evolving Skill Bank and Decision Agent),其核心思路是让两个代理相互促进:

  • LLM 决策代理:从可学习的技能库中检索相关技能指导动作生成,同时根据任务反馈调整检索策略。
  • 技能库代理:从决策代理的未标记 rollout 数据中自动发现、提炼可复用技能,并持续更新技能库及对应契约(contracts)。

这种“技能军备竞赛”式设计使技能库不断丰富,决策代理逐步学会更精准的技能调用,形成正反馈循环。

实验效果:8B 模型也能“以小博大”

团队在 6 个游戏环境(包括单人和多人社交推理游戏)中测试了 COSPALY。仅使用 8B 参数的基座模型,COSPALY 就在单人游戏基准上实现了 平均奖励提升 25.1% 的效果,优于 GPT-4 等四种前沿 LLM 基线。在多人社交推理任务中,其表现也具备竞争力。

意义与展望

COSPALY 为 LLM 的长时决策提供了新范式——不是让模型记住所有规则,而是学会“如何积累技能”。这一框架有望推广到机器人控制、自动化工作流等需要持续学习的场景。未来工作可探索技能库的跨任务迁移、更高效的技能表示方式,以及如何与强化学习结合进一步优化。

延伸阅读

  1. HypEHR:用双曲空间建模电子健康记录,实现高效问答
  2. 逃离“一致性陷阱”:评估规则型AI的新方法——防御性指标
  3. 自适应测试时计算分配:让AI推理更聪明地“花时间”
查看原文