新上线今天0 投票
MODE:面向MoE多模态大模型的模态分解专家级混合精度量化方法
混合专家多模态大语言模型(MoE-MLLMs)在性能上表现出色,但巨大的GPU显存开销成为部署瓶颈。模型压缩因此变得至关重要。在已有的后训练量化(PTQ)方案中,专家级混合精度量化已被证明对MoE-LLMs有效,然而直接应用于MoE-MLLMs时却出现明显的性能退化。研究者发现,根本原因在于专家重要性估计中存在两种被忽视的偏差:跨模态偏差和视觉内偏差。
偏差来源
- 跨模态偏差:在MoE-MLLMs中,视觉token在数量上占据绝对优势,导致专家选择频率统计被视觉token主导,从而掩盖了对文本模态至关重要的专家。
- 视觉内偏差:大量冗余的视觉token进一步扭曲了频率统计,使得对信息性视觉内容关键的专家被淹没。
MODE框架
为弥补上述偏差,来自中国科学院等机构的研究团队提出了MODE(Modality-Decomposed Expert-Level Mixed-Precision Quantization),一个专门针对MoE-MLLMs的模态分解专家级混合精度量化框架。核心思路包括:
- 按模态分解专家选择频率:分别统计各模态(文本、视觉)下的频率,避免视觉token的数值优势掩盖文本专家的重要性。
- 过滤冗余视觉token:通过去噪处理得到更纯净的视觉频率,突出对有效视觉内容贡献大的专家。
- 引入模态级量化敏感度:将每个模态下的量化敏感度作为频率估计的补充信号,更全面地评估专家重要性。
- 整数线性规划(ILP):将上述多维度信号整合到ILP优化问题中,在给定比特预算下为每个专家分配最优位宽。
实验效果
大量实验表明,MODE特别适配MoE-MLLMs。在W3A16(权重3比特,激活16比特)设置下,平均性能损失控制在2.9%以内;在极端的2比特设置下,性能提升更为显著。该方法有效解决了传统混合精度量化在多模态场景下的失效问题,为部署高容量MoE多模态模型提供了切实可行的压缩方案。