SheepNav
新上线今天0 投票

MODE:面向MoE多模态大模型的模态分解专家级混合精度量化方法

混合专家多模态大语言模型(MoE-MLLMs)在性能上表现出色,但巨大的GPU显存开销成为部署瓶颈。模型压缩因此变得至关重要。在已有的后训练量化(PTQ)方案中,专家级混合精度量化已被证明对MoE-LLMs有效,然而直接应用于MoE-MLLMs时却出现明显的性能退化。研究者发现,根本原因在于专家重要性估计中存在两种被忽视的偏差:跨模态偏差视觉内偏差

偏差来源

  • 跨模态偏差:在MoE-MLLMs中,视觉token在数量上占据绝对优势,导致专家选择频率统计被视觉token主导,从而掩盖了对文本模态至关重要的专家。
  • 视觉内偏差:大量冗余的视觉token进一步扭曲了频率统计,使得对信息性视觉内容关键的专家被淹没。

MODE框架

为弥补上述偏差,来自中国科学院等机构的研究团队提出了MODE(Modality-Decomposed Expert-Level Mixed-Precision Quantization),一个专门针对MoE-MLLMs的模态分解专家级混合精度量化框架。核心思路包括:

  1. 按模态分解专家选择频率:分别统计各模态(文本、视觉)下的频率,避免视觉token的数值优势掩盖文本专家的重要性。
  2. 过滤冗余视觉token:通过去噪处理得到更纯净的视觉频率,突出对有效视觉内容贡献大的专家。
  3. 引入模态级量化敏感度:将每个模态下的量化敏感度作为频率估计的补充信号,更全面地评估专家重要性。
  4. 整数线性规划(ILP):将上述多维度信号整合到ILP优化问题中,在给定比特预算下为每个专家分配最优位宽。

实验效果

大量实验表明,MODE特别适配MoE-MLLMs。在W3A16(权重3比特,激活16比特)设置下,平均性能损失控制在2.9%以内;在极端的2比特设置下,性能提升更为显著。该方法有效解决了传统混合精度量化在多模态场景下的失效问题,为部署高容量MoE多模态模型提供了切实可行的压缩方案。

延伸阅读

  1. 噪声驱动亚稳态逃逸:深度学习“顿悟”现象背后的物理机制
  2. 远程单次条纹投影轮廓测量中的形状先验捷径:诊断与修复
  3. 探针、融合与可信度:面向多模态癌症分析的基模型表征系统评估
查看原文