GRASP：梯度对齐顺序参数迁移，O(1)内存多源学习

多源迁移学习面临一个根本性的可扩展瓶颈：现有方法要么在参数融合时一次性将所有 K 个源模型加载到内存中（需要 O(K) 内存），要么在推理时部署所有模型，导致生产部署不可行。我们提出 GRASP（梯度对齐顺序参数迁移），通过三项关键创新在维持 O(1) 内存消耗 的同时实现卓越的知识集成：

顺序处理：每次只将一个源模型合并到正在演化的目标模型中；
参数级梯度对齐：仅选择优化方向与目标领域对齐的参数进行迁移，避免负迁移；
迭代微调：在集成下一个源模型之前，对已迁移的知识进行自适应调整。

在三个持续学习基准（Yearbook、CLEAR-10、CLEAR-100，覆盖 10 到 108 年时间分布偏移）和四种架构（1.3M 至 25.6M 参数）上的大量实验表明，GRASP 在所有数据集和架构上的平均准确率达到 93.5%，而集成方法仅为 71.7%。同时，GRASP 仅需恒定内存，而标准多源融合需要 K 个模型的内存。关键的是，GRASP 的顺序设计使得之前合并的模型无需保留，且能扩展到任意多的源模型而无需增加内存，使其特别适合资源受限的部署和持续演化的源领域。

GRASP：梯度对齐顺序参数迁移，实现多源学习的极致内存效率

延伸阅读

相关资讯