BitsMoE：谱能量引导MoE大模型量化，2-bit下精度提升27%

混合专家（MoE）大语言模型通过稀疏专家激活降低了每token的计算量，但部署时所有专家权重需常驻内存，导致内存压力巨大。现有压缩方法在超低位宽下表现不佳：剪枝不可逆地移除模型容量，而粗粒度量化无法根据专家和权重方向的重要性分配位宽。为此，研究者提出 BitsMoE——一种基于谱能量引导的位宽分配框架，专为MoE大模型量化设计。

核心思路：SVD分解与谱感知量化

BitsMoE的核心创新在于利用奇异值分解（SVD）将每个MoE层分解为共享基和专家特定谱因子。共享基不进行量化，以保留跨专家的通用结构；而专家特定因子则作为细粒度量化单元。这种分解将量化误差限制在专家差异部分，避免了共享信息的损失。

混合精度位宽分配：激活感知整数线性规划

为了确定每个量化单元的位宽，BitsMoE将谱级混合精度量化建模为激活感知重建替代问题，并通过整数线性规划在固定位预算下最小化估计重建损失。具体而言，该方法利用谱能量（即奇异值）作为重要性指标，能量更高的成分分配更多位宽，从而在压缩比和模型质量间取得最优平衡。

实验结果：2-bit量化下精度提升27.83个百分点

在 Qwen3-30B-A3B-Base 模型上的测试显示，2-bit量化下BitsMoE相比GPTQ实现了 12.3倍量化加速，平均准确率提升 27.83个百分点，解码速度提升 1.76倍。在多个MoE大模型（如Mixtral 8x7B、DeepSeek-MoE等）的实验中，BitsMoE在超低位宽（2-3 bit）下均显著优于现有方法，同时保持了高吞吐量。

行业意义与展望

MoE模型因其高效推理而成为大模型部署的主流选择，但内存瓶颈制约了其在边缘设备上的应用。BitsMoE通过谱能量引导的位宽分配，首次在超低位宽下实现了可接受的精度损失，为MoE大模型的极致压缩提供了新思路。未来，该方法可进一步结合量化感知训练和硬件协同设计，推动大模型在资源受限场景的落地。

论文代码和模型已开源，详见项目地址。

BitsMoE：利用谱能量引导MoE大模型量化中的位宽分配

核心思路：SVD分解与谱感知量化

混合精度位宽分配：激活感知整数线性规划

实验结果：2-bit量化下精度提升27.83个百分点

行业意义与展望

延伸阅读

相关资讯