SheepNav
新上线2天前0 投票

GRASP:梯度对齐顺序参数迁移,实现多源学习的极致内存效率

多源迁移学习面临一个根本性的可扩展瓶颈:现有方法要么在参数融合时一次性将所有 K 个源模型加载到内存中(需要 O(K) 内存),要么在推理时部署所有模型,导致生产部署不可行。我们提出 GRASP(梯度对齐顺序参数迁移),通过三项关键创新在维持 O(1) 内存消耗 的同时实现卓越的知识集成:

  1. 顺序处理:每次只将一个源模型合并到正在演化的目标模型中;
  2. 参数级梯度对齐:仅选择优化方向与目标领域对齐的参数进行迁移,避免负迁移;
  3. 迭代微调:在集成下一个源模型之前,对已迁移的知识进行自适应调整。

在三个持续学习基准(Yearbook、CLEAR-10、CLEAR-100,覆盖 10 到 108 年时间分布偏移)和四种架构(1.3M 至 25.6M 参数)上的大量实验表明,GRASP 在所有数据集和架构上的平均准确率达到 93.5%,而集成方法仅为 71.7%。同时,GRASP 仅需恒定内存,而标准多源融合需要 K 个模型的内存。关键的是,GRASP 的顺序设计使得之前合并的模型无需保留,且能扩展到任意多的源模型而无需增加内存,使其特别适合资源受限的部署和持续演化的源领域。

延伸阅读

  1. 英国将用AI扫描寻求庇护者面部进行年龄检测——明知技术有缺陷仍推进
  2. 冲击波理论与神经网络随机梯度下降的对称约化动力学:一项数学链接
  3. DRIFT:基于同策略数据归因的精调指令数据优化方法
查看原文