SheepNav
新上线今天0 投票

MoE模型压缩新突破:基于归因引导与覆盖最大化的结构化剪枝框架

混合专家(Mixture-of-Experts, MoE)模型虽能高效扩展计算,但其巨大的内存占用和推理开销仍制约着实际部署。现有压缩方法多在专家级别操作,要么移除整个专家,要么依据粗粒度的重要性分数对专家排序。然而,这种专家级别的决策往往过于粗糙,无法捕捉细粒度冗余,导致剪枝预算分配不当,压缩效果有限。

针对这一问题,研究团队观察到:MoE专家中的信息高度集中在少量通道上,即使是重要的专家也存在大量冗余。基于这一发现,他们提出了一种专为MoE模型设计的结构化剪枝框架。该方法将剪枝比例分配重新定义为通道分数覆盖最大化问题,并通过基于归因的近似方法高效求解。

DeepSeekQwen 系列MoE模型上的实验表明,该方法在结合4比特量化后,即使在50%或25%的结构化剪枝率下仍能保持模型精度。以 Qwen3-30B-A3B 为例,该方法将内存占用减少了 5.27倍,并在多个基准测试中持续优于现有最优基线。

技术原理

细粒度冗余的发现

传统方法认为专家整体重要性有高低之分,但该研究通过归因分析发现,即使是被认为重要的专家,其内部通道的贡献也极不均衡——少数关键通道贡献了大部分信息,而大量通道存在冗余。这为在通道级别进行剪枝提供了理论依据。

覆盖最大化问题

剪枝的核心挑战在于如何为不同专家分配剪枝比例。研究者将其建模为一个优化问题:在总剪枝预算约束下,最大化保留通道的“归因分数”覆盖度。通过贪心算法近似求解,可以自动为冗余多的专家分配更高剪枝率,而保留关键专家的核心通道。

实验效果

Qwen3-30B-A3B 模型上,该方法实现了 5.27倍 的内存压缩,同时保持与原始模型相当的准确率。在 DeepSeek-MoE 系列上,50%结构化剪枝后,模型在多个NLP任务上的性能下降不足1%。与专家级剪枝、通道级均匀剪枝等基线相比,该方法在精度-压缩比曲线上均显著占优。

行业意义

MoE模型因其稀疏激活特性,在训练阶段表现出色,但部署时所有专家权重需同时加载,导致显存需求巨大。该研究提出的通道级结构化剪枝,能够在不改变模型架构的前提下大幅减少参数,且兼容常见的量化与蒸馏技术。这对于将MoE模型部署到资源受限的边缘设备或降低云端推理成本具有重要价值。

该论文已被 ICML 2026 接收,研究者来自多所高校与机构,代码将开源。

延伸阅读

  1. 英国将用AI扫描寻求庇护者面部进行年龄检测——明知技术有缺陷仍推进
  2. 冲击波理论与神经网络随机梯度下降的对称约化动力学:一项数学链接
  3. DRIFT:基于同策略数据归因的精调指令数据优化方法
查看原文