MoE模型压缩：归因引导覆盖最大化的结构化剪枝框架

混合专家（Mixture-of-Experts, MoE）模型虽能高效扩展计算，但其巨大的内存占用和推理开销仍制约着实际部署。现有压缩方法多在专家级别操作，要么移除整个专家，要么依据粗粒度的重要性分数对专家排序。然而，这种专家级别的决策往往过于粗糙，无法捕捉细粒度冗余，导致剪枝预算分配不当，压缩效果有限。

针对这一问题，研究团队观察到：MoE专家中的信息高度集中在少量通道上，即使是重要的专家也存在大量冗余。基于这一发现，他们提出了一种专为MoE模型设计的结构化剪枝框架。该方法将剪枝比例分配重新定义为通道分数覆盖最大化问题，并通过基于归因的近似方法高效求解。

在 DeepSeek 和 Qwen 系列MoE模型上的实验表明，该方法在结合4比特量化后，即使在50%或25%的结构化剪枝率下仍能保持模型精度。以 Qwen3-30B-A3B 为例，该方法将内存占用减少了 5.27倍，并在多个基准测试中持续优于现有最优基线。

技术原理

细粒度冗余的发现

传统方法认为专家整体重要性有高低之分，但该研究通过归因分析发现，即使是被认为重要的专家，其内部通道的贡献也极不均衡——少数关键通道贡献了大部分信息，而大量通道存在冗余。这为在通道级别进行剪枝提供了理论依据。

覆盖最大化问题

剪枝的核心挑战在于如何为不同专家分配剪枝比例。研究者将其建模为一个优化问题：在总剪枝预算约束下，最大化保留通道的“归因分数”覆盖度。通过贪心算法近似求解，可以自动为冗余多的专家分配更高剪枝率，而保留关键专家的核心通道。

实验效果

在 Qwen3-30B-A3B 模型上，该方法实现了 5.27倍 的内存压缩，同时保持与原始模型相当的准确率。在 DeepSeek-MoE 系列上，50%结构化剪枝后，模型在多个NLP任务上的性能下降不足1%。与专家级剪枝、通道级均匀剪枝等基线相比，该方法在精度-压缩比曲线上均显著占优。

行业意义

MoE模型因其稀疏激活特性，在训练阶段表现出色，但部署时所有专家权重需同时加载，导致显存需求巨大。该研究提出的通道级结构化剪枝，能够在不改变模型架构的前提下大幅减少参数，且兼容常见的量化与蒸馏技术。这对于将MoE模型部署到资源受限的边缘设备或降低云端推理成本具有重要价值。

该论文已被 ICML 2026 接收，研究者来自多所高校与机构，代码将开源。

MoE模型压缩新突破：基于归因引导与覆盖最大化的结构化剪枝框架

技术原理

细粒度冗余的发现

覆盖最大化问题

实验效果

行业意义

延伸阅读

相关资讯