持续蒸馏CD：学生模型从多领域教师序列中持续学习

随着深度学习模型规模不断膨胀，部分大模型的存储需求甚至超过了许多大型数据集。针对这一趋势，来自东京大学的研究团队提出了一种全新范式——持续蒸馏（Continual Distillation, CD），旨在让一个轻量级学生模型从一系列教师模型中顺序学习，而无需保留对早期教师模型的访问权限。相关论文已被 CVPR 2026 接收，代码也已开源。

核心挑战：无数据与遗忘

CD 面临两大核心挑战：第一，教师模型的训练数据通常不可获取；第二，不同教师来自不同领域，专长各异。传统知识蒸馏通常假设教师数据可用，但在持续学习场景下，学生只能依赖教师输出的软标签或 logits，而无法接触到原始训练样本。此外，顺序蒸馏会导致灾难性遗忘——学生从后序教师学到新知识时，会遗忘先前教师传递的知识。

创新机制：未知知识迁移与遗忘

研究团队发现，利用外部无标签数据可以实现 未知知识迁移（Unseen Knowledge Transfer, UKT），即学生能够从教师那里获取训练数据中未出现的领域知识，而这些知识对教师而言是已知的。例如，一个在自然图像上训练的教师，可能通过外部数据间接传递医学影像的特征。

然而，顺序蒸馏也引发了 未知知识遗忘（Unseen Knowledge Forgetting, UKF） 问题：当学生学习后续教师的知识时，先前迁移的未知知识可能被覆盖。

SE2D：平衡迁移与遗忘的解决方案

为了在 UKT 和 UKF 之间取得更好权衡，该研究提出了 SE2D（Self External Data Distillation） 方法。其核心思想是：在外部数据上保存每个教师模型的 logits，并在后续训练中利用这些 logits 作为稳定信号，从而抑制遗忘。具体来说，SE2D 在蒸馏过程中引入了一个外部数据集（无需标签），学生不仅要拟合当前教师的输出，还要回顾之前保存的 logits，以此维持对旧知识的记忆。

实验效果与意义

在多个基准测试上，SE2D 显著减少了 UKF，并提升了跨域泛化能力。例如，在从自然图像到医学图像再到卫星图像的序列蒸馏中，SE2D 相比基线方法在目标域准确率上提升了 5-10%。这一工作为模型压缩与持续学习交叉领域提供了新思路，尤其适用于边缘设备上的模型更新——当云端教师不断升级时，本地学生可以通过 CD 持续吸收知识，而无需重新收集历史数据或访问旧模型。

小结

持续蒸馏将知识蒸馏与持续学习相结合，解决了数据不可访问和领域异质性两大痛点。SE2D 通过外部数据上的 logits 缓存，有效缓解了遗忘，为未来多源知识融合提供了实用方案。研究者已公开代码，感兴趣的读者可进一步探索。

持续蒸馏：让轻量学生模型从多领域教师序列中持续学习

核心挑战：无数据与遗忘

创新机制：未知知识迁移与遗忘

SE2D：平衡迁移与遗忘的解决方案

实验效果与意义

小结

延伸阅读

相关资讯