新上线2天前0 投票
GRASP:梯度对齐顺序参数迁移,实现多源学习的极致内存效率
多源迁移学习面临一个根本性的可扩展瓶颈:现有方法要么在参数融合时一次性将所有 K 个源模型加载到内存中(需要 O(K) 内存),要么在推理时部署所有模型,导致生产部署不可行。我们提出 GRASP(梯度对齐顺序参数迁移),通过三项关键创新在维持 O(1) 内存消耗 的同时实现卓越的知识集成:
- 顺序处理:每次只将一个源模型合并到正在演化的目标模型中;
- 参数级梯度对齐:仅选择优化方向与目标领域对齐的参数进行迁移,避免负迁移;
- 迭代微调:在集成下一个源模型之前,对已迁移的知识进行自适应调整。
在三个持续学习基准(Yearbook、CLEAR-10、CLEAR-100,覆盖 10 到 108 年时间分布偏移)和四种架构(1.3M 至 25.6M 参数)上的大量实验表明,GRASP 在所有数据集和架构上的平均准确率达到 93.5%,而集成方法仅为 71.7%。同时,GRASP 仅需恒定内存,而标准多源融合需要 K 个模型的内存。关键的是,GRASP 的顺序设计使得之前合并的模型无需保留,且能扩展到任意多的源模型而无需增加内存,使其特别适合资源受限的部署和持续演化的源领域。
