SheepNav
精选今天0 投票

CASCADE:让大模型在部署中持续学习,性能提升20.9%

概述

大语言模型(LLM)当前的生命周期严格分为训练和部署两个阶段,部署后模型便停止学习,这与自然界智能体持续适应的能力形成鲜明对比。来自多所机构的研究者提出了一种名为 CASCADE 的新框架,旨在赋予 LLM 在部署过程中持续从经验中学习的能力,而无需修改模型参数。

核心思想:部署时学习(DTL)

论文首次正式定义了 部署时学习(Deployment-Time Learning, DTL) 作为 LLM 生命周期的第三阶段。DTL 的核心在于让 LLM 代理在部署后,通过与环境的交互积累经验,并将这些经验转化为可复用的知识,从而持续提升性能。

CASCADE 框架

CASCADE(CASe-based Continual Adaptation during DEployment)是一个基于案例的持续适应框架。其关键创新在于:

  • 显式情景记忆:为 LLM 代理配备一个动态演化的记忆库,用于存储和检索过往的成功案例。
  • 上下文多臂赌博机建模:将经验复用问题形式化为上下文多臂赌博机问题,在探索(尝试新策略)与利用(复用已知有效案例)之间取得理论最优平衡,并提供了无遗憾(no-regret) 的长期交互保证。
  • 案例积累与精炼:代理能够自动积累、筛选和优化任务相关的案例,将零散的经验转化为可操作的知识。

实验表现

研究者在 16 个 多样化任务上进行了评估,涵盖医疗诊断、法律分析、代码生成、网络搜索、工具使用以及具身交互等场景。结果显示:

  • CASCADE 相较于零样本提示(zero-shot prompting),宏平均成功率提升 20.9%
  • 在几乎所有任务上,CASCADE 均优于基于梯度更新和基于记忆的基线方法。

意义与展望

CASCADE 将部署阶段重新定义为一种自适应学习过程,为构建持续改进的 AI 系统奠定了重要基础。这一方向有望突破当前 LLM 静态部署的瓶颈,使模型能够在实际应用中不断进化,更好地应对动态变化的环境和用户需求。

小结

CASCADE 提供了一种轻量级、无需参数更新的部署时学习方案,通过案例记忆和赌博机决策机制,显著提升了 LLM 在多种下游任务上的表现。未来,该方法可望与在线微调、提示优化等技术结合,进一步推动大模型的持续学习研究。

延伸阅读

  1. 语言模型何时“下定决心”?有限答案理论揭示预语言化承诺时刻
  2. 从存储到经验:LLM智能体记忆机制的进化之路
  3. 多智能体AI中的隐藏联盟:从内部表征进行光谱诊断
查看原文