ICML 2026立场：强化学习部署后应持续学习

强化学习（RL） 在现实世界中的应用日益广泛，但大多数系统仍遵循“先训练，后修复”（train-then-fix）的模式：训练好的智能体在部署后停止学习，直到性能下降才重新训练。近日，一篇被 ICML 2026 立场论文轨道收录的文章明确提出，部署一个无法持续优化但能接收评估性奖励信号的智能体，本质上是一个持续强化学习（Continual RL） 问题。该文由 Parnian Behdin、Kevin Roice 和 Golnaz Mesbahi 共同撰写，系统论证了为何部署后的智能体应当永不停歇地适应环境变化。

部署后非平稳性的四大来源

作者指出，部署环境并非静止不变，至少存在四类非平稳性（non-stationarity）：

环境动态变化：用户行为、物理条件或系统状态会随时间迁移；
目标或奖励漂移：任务优先级或评价标准可能调整；
感知与动作边界变化：传感器噪声、执行器磨损或接口更新；
外部扰动：竞争对手策略、政策法规或突发事件的影响。

在这些因素作用下，固定策略的智能体必然逐渐偏离最优，最终需要重新训练，而这期间的成本与风险往往被低估。

为什么“永不停止学习”才是最优解

文章强调，部署后持续学习并非锦上添花，而是确保长期最优性的必要条件。现实世界中已有成功案例：例如推荐系统的在线学习、机器人的适应控制、以及自动驾驶的持续数据回传与模型迭代。这些系统本质上都在进行某种形式的持续 RL，只是尚未被明确纳入统一理论框架。

作者呼吁社区摒弃“先训练后修复”的范式，转向设计能够终身学习的 RL 系统。具体优势包括：

即时响应：无需等待性能崩溃即可适应变化；
效率提升：减少重复训练的计算与时间成本；
安全可靠：渐进式更新比突发式重训更可控。

迈向持续 RL 的路径

论文并未停留在批评，而是提出了初步的度量标准与设计原则，例如评估持续学习能力、稳定性与可塑性平衡、以及灾难性遗忘的缓解策略。作者希望借此激发更多关于部署后学习机制的研究，推动 RL 从实验室走向真正的“终身自治”系统。

小结

这篇立场论文直击当前 RL 应用中的核心矛盾：追求最优性却采用固定策略。它提醒我们，真实世界永远在变化，智能体的学习不应止于部署时刻。对于从事 RL 应用的研究者和工程师而言，这既是一份警醒，也是一份路线图——或许，下一代 RL 系统的核心竞争力，就藏在“持续学习”这四个字里。

立场声明：部署后的强化学习应当持续进行

部署后非平稳性的四大来源

为什么“永不停止学习”才是最优解

迈向持续 RL 的路径

小结

延伸阅读

相关资讯