SheepNav
新上线今天0 投票

持续蒸馏:让轻量学生模型从多领域教师序列中持续学习

随着深度学习模型规模不断膨胀,部分大模型的存储需求甚至超过了许多大型数据集。针对这一趋势,来自东京大学的研究团队提出了一种全新范式——持续蒸馏(Continual Distillation, CD),旨在让一个轻量级学生模型从一系列教师模型中顺序学习,而无需保留对早期教师模型的访问权限。相关论文已被 CVPR 2026 接收,代码也已开源。

核心挑战:无数据与遗忘

CD 面临两大核心挑战:第一,教师模型的训练数据通常不可获取;第二,不同教师来自不同领域,专长各异。传统知识蒸馏通常假设教师数据可用,但在持续学习场景下,学生只能依赖教师输出的软标签或 logits,而无法接触到原始训练样本。此外,顺序蒸馏会导致灾难性遗忘——学生从后序教师学到新知识时,会遗忘先前教师传递的知识。

创新机制:未知知识迁移与遗忘

研究团队发现,利用外部无标签数据可以实现 未知知识迁移(Unseen Knowledge Transfer, UKT),即学生能够从教师那里获取训练数据中未出现的领域知识,而这些知识对教师而言是已知的。例如,一个在自然图像上训练的教师,可能通过外部数据间接传递医学影像的特征。

然而,顺序蒸馏也引发了 未知知识遗忘(Unseen Knowledge Forgetting, UKF) 问题:当学生学习后续教师的知识时,先前迁移的未知知识可能被覆盖。

SE2D:平衡迁移与遗忘的解决方案

为了在 UKT 和 UKF 之间取得更好权衡,该研究提出了 SE2D(Self External Data Distillation) 方法。其核心思想是:在外部数据上保存每个教师模型的 logits,并在后续训练中利用这些 logits 作为稳定信号,从而抑制遗忘。具体来说,SE2D 在蒸馏过程中引入了一个外部数据集(无需标签),学生不仅要拟合当前教师的输出,还要回顾之前保存的 logits,以此维持对旧知识的记忆。

实验效果与意义

在多个基准测试上,SE2D 显著减少了 UKF,并提升了跨域泛化能力。例如,在从自然图像到医学图像再到卫星图像的序列蒸馏中,SE2D 相比基线方法在目标域准确率上提升了 5-10%。这一工作为模型压缩与持续学习交叉领域提供了新思路,尤其适用于边缘设备上的模型更新——当云端教师不断升级时,本地学生可以通过 CD 持续吸收知识,而无需重新收集历史数据或访问旧模型。

小结

持续蒸馏将知识蒸馏与持续学习相结合,解决了数据不可访问和领域异质性两大痛点。SE2D 通过外部数据上的 logits 缓存,有效缓解了遗忘,为未来多源知识融合提供了实用方案。研究者已公开代码,感兴趣的读者可进一步探索。

延伸阅读

  1. 内生机制切换:标量不可约学习动力学驱动自主智能新范式
  2. MetaAdamW:自注意力元优化器实现分组自适应学习率与权重衰减
  3. 基于群分解理论与参数划分的变换分类方法
查看原文