CASCADE框架：大模型部署中持续学习提升20.9%

概述

大语言模型（LLM）当前的生命周期严格分为训练和部署两个阶段，部署后模型便停止学习，这与自然界智能体持续适应的能力形成鲜明对比。来自多所机构的研究者提出了一种名为 CASCADE 的新框架，旨在赋予 LLM 在部署过程中持续从经验中学习的能力，而无需修改模型参数。

论文首次正式定义了 部署时学习（Deployment-Time Learning, DTL） 作为 LLM 生命周期的第三阶段。DTL 的核心在于让 LLM 代理在部署后，通过与环境的交互积累经验，并将这些经验转化为可复用的知识，从而持续提升性能。

CASCADE（CASe-based Continual Adaptation during DEployment）是一个基于案例的持续适应框架。其关键创新在于：

显式情景记忆：为 LLM 代理配备一个动态演化的记忆库，用于存储和检索过往的成功案例。
上下文多臂赌博机建模：将经验复用问题形式化为上下文多臂赌博机问题，在探索（尝试新策略）与利用（复用已知有效案例）之间取得理论最优平衡，并提供了无遗憾（no-regret） 的长期交互保证。
案例积累与精炼：代理能够自动积累、筛选和优化任务相关的案例，将零散的经验转化为可操作的知识。

研究者在 16 个 多样化任务上进行了评估，涵盖医疗诊断、法律分析、代码生成、网络搜索、工具使用以及具身交互等场景。结果显示：

CASCADE 将部署阶段重新定义为一种自适应学习过程，为构建持续改进的 AI 系统奠定了重要基础。这一方向有望突破当前 LLM 静态部署的瓶颈，使模型能够在实际应用中不断进化，更好地应对动态变化的环境和用户需求。

CASCADE 提供了一种轻量级、无需参数更新的部署时学习方案，通过案例记忆和赌博机决策机制，显著提升了 LLM 在多种下游任务上的表现。未来，该方法可望与在线微调、提示优化等技术结合，进一步推动大模型的持续学习研究。