新上线今天0 投票
MP-ISMoE:混合精度交互式侧边混合专家模型,高效迁移学习新突破
背景与挑战
大模型迁移学习(Transfer Learning)虽已广泛用于下游任务,但传统参数高效微调(PETL)方法在减少可训练参数的同时,仍因反向传播导致显存开销巨大。为此,记忆高效迁移学习(METL) 通过轻量侧网络绕过骨干梯度计算,大幅降低显存占用,但侧网络的学习能力受限于严格的记忆约束,性能往往不尽如人意。
核心创新:MP-ISMoE
针对上述矛盾,来自研究团队的论文(已被AAAI 2026接收)提出 MP-ISMoE(混合精度交互式侧边混合专家框架),从两个维度实现突破:
1. 高斯噪声扰动迭代量化(GNP-IQ)
通过引入高斯噪声扰动,对模型权重进行迭代式低比特量化,在将权重压缩至更低比特位的同时,有效降低量化误差。相比传统量化方法,GNP-IQ能保留更多原始信息,为后续扩展侧网络腾出宝贵的显存空间。
2. 交互式侧边混合专家(ISMoE)
利用GNP-IQ节省的显存,MP-ISMoE引入交互式侧边混合专家模块。与常规混合专家(MoE)不同,ISMoE并非独立选择专家,而是与冻结骨干网络中的显著特征进行交互,根据下游任务动态挑选最合适的专家。这种设计不仅抑制了知识遗忘,还显著提升了侧网络的学习容量。
实验结果
在多模态视觉-语言任务(如VQA、图像描述)和纯语言任务(如GLUE基准)上的广泛实验表明:
- MP-ISMoE在准确率上全面超越现有最优METL方法,例如在VQA v2数据集上提升约1.5个百分点。
- 同时,其参数量和显存效率与最先进的METL方法持平,甚至更优。
行业意义
MP-ISMoE的核心价值在于打破了METL中“记忆-容量”的固有权衡。通过混合精度量化腾出空间,再以交互式MoE注入容量,为大模型在资源受限设备(如移动端、边缘计算)上的高效微调提供了可行路径。
一句话总结:用量化“省”出来的显存,喂给更聪明的侧边专家,让轻量迁移学习不再牺牲性能。