SheepNav
新上线今天0 投票

BitsMoE:利用谱能量引导MoE大模型量化中的位宽分配

混合专家(MoE)大语言模型通过稀疏专家激活降低了每token的计算量,但部署时所有专家权重需常驻内存,导致内存压力巨大。现有压缩方法在超低位宽下表现不佳:剪枝不可逆地移除模型容量,而粗粒度量化无法根据专家和权重方向的重要性分配位宽。为此,研究者提出 BitsMoE——一种基于谱能量引导的位宽分配框架,专为MoE大模型量化设计。

核心思路:SVD分解与谱感知量化

BitsMoE的核心创新在于利用奇异值分解(SVD)将每个MoE层分解为共享基专家特定谱因子。共享基不进行量化,以保留跨专家的通用结构;而专家特定因子则作为细粒度量化单元。这种分解将量化误差限制在专家差异部分,避免了共享信息的损失。

混合精度位宽分配:激活感知整数线性规划

为了确定每个量化单元的位宽,BitsMoE将谱级混合精度量化建模为激活感知重建替代问题,并通过整数线性规划在固定位预算下最小化估计重建损失。具体而言,该方法利用谱能量(即奇异值)作为重要性指标,能量更高的成分分配更多位宽,从而在压缩比和模型质量间取得最优平衡。

实验结果:2-bit量化下精度提升27.83个百分点

Qwen3-30B-A3B-Base 模型上的测试显示,2-bit量化下BitsMoE相比GPTQ实现了 12.3倍量化加速,平均准确率提升 27.83个百分点,解码速度提升 1.76倍。在多个MoE大模型(如Mixtral 8x7B、DeepSeek-MoE等)的实验中,BitsMoE在超低位宽(2-3 bit)下均显著优于现有方法,同时保持了高吞吐量。

行业意义与展望

MoE模型因其高效推理而成为大模型部署的主流选择,但内存瓶颈制约了其在边缘设备上的应用。BitsMoE通过谱能量引导的位宽分配,首次在超低位宽下实现了可接受的精度损失,为MoE大模型的极致压缩提供了新思路。未来,该方法可进一步结合量化感知训练和硬件协同设计,推动大模型在资源受限场景的落地。

论文代码和模型已开源,详见项目地址。

延伸阅读

  1. 世界模型全面综述:架构、方法论、推理范式与应用全景
  2. FoLoRA:用广义瑞利商优化实现基础模型微调与能力保持的平衡
  3. 自动可微非线性张量网络:实现深度神经网络指数级压缩的新路径
查看原文