精选今天0 投票
CASCADE:让大模型在部署中持续学习,性能提升20.9%
概述
大语言模型(LLM)当前的生命周期严格分为训练和部署两个阶段,部署后模型便停止学习,这与自然界智能体持续适应的能力形成鲜明对比。来自多所机构的研究者提出了一种名为 CASCADE 的新框架,旨在赋予 LLM 在部署过程中持续从经验中学习的能力,而无需修改模型参数。
核心思想:部署时学习(DTL)
论文首次正式定义了 部署时学习(Deployment-Time Learning, DTL) 作为 LLM 生命周期的第三阶段。DTL 的核心在于让 LLM 代理在部署后,通过与环境的交互积累经验,并将这些经验转化为可复用的知识,从而持续提升性能。
CASCADE 框架
CASCADE(CASe-based Continual Adaptation during DEployment)是一个基于案例的持续适应框架。其关键创新在于:
- 显式情景记忆:为 LLM 代理配备一个动态演化的记忆库,用于存储和检索过往的成功案例。
- 上下文多臂赌博机建模:将经验复用问题形式化为上下文多臂赌博机问题,在探索(尝试新策略)与利用(复用已知有效案例)之间取得理论最优平衡,并提供了无遗憾(no-regret) 的长期交互保证。
- 案例积累与精炼:代理能够自动积累、筛选和优化任务相关的案例,将零散的经验转化为可操作的知识。
实验表现
研究者在 16 个 多样化任务上进行了评估,涵盖医疗诊断、法律分析、代码生成、网络搜索、工具使用以及具身交互等场景。结果显示:
- CASCADE 相较于零样本提示(zero-shot prompting),宏平均成功率提升 20.9%。
- 在几乎所有任务上,CASCADE 均优于基于梯度更新和基于记忆的基线方法。
意义与展望
CASCADE 将部署阶段重新定义为一种自适应学习过程,为构建持续改进的 AI 系统奠定了重要基础。这一方向有望突破当前 LLM 静态部署的瓶颈,使模型能够在实际应用中不断进化,更好地应对动态变化的环境和用户需求。
小结
CASCADE 提供了一种轻量级、无需参数更新的部署时学习方案,通过案例记忆和赌博机决策机制,显著提升了 LLM 在多种下游任务上的表现。未来,该方法可望与在线微调、提示优化等技术结合,进一步推动大模型的持续学习研究。