MODE: 模态分解专家级混合精度量化方法

混合专家多模态大语言模型（MoE-MLLMs）在性能上表现出色，但巨大的GPU显存开销成为部署瓶颈。模型压缩因此变得至关重要。在已有的后训练量化（PTQ）方案中，专家级混合精度量化已被证明对MoE-LLMs有效，然而直接应用于MoE-MLLMs时却出现明显的性能退化。研究者发现，根本原因在于专家重要性估计中存在两种被忽视的偏差：跨模态偏差和视觉内偏差。

偏差来源

跨模态偏差：在MoE-MLLMs中，视觉token在数量上占据绝对优势，导致专家选择频率统计被视觉token主导，从而掩盖了对文本模态至关重要的专家。
视觉内偏差：大量冗余的视觉token进一步扭曲了频率统计，使得对信息性视觉内容关键的专家被淹没。

MODE框架

为弥补上述偏差，来自中国科学院等机构的研究团队提出了MODE（Modality-Decomposed Expert-Level Mixed-Precision Quantization），一个专门针对MoE-MLLMs的模态分解专家级混合精度量化框架。核心思路包括：

按模态分解专家选择频率：分别统计各模态（文本、视觉）下的频率，避免视觉token的数值优势掩盖文本专家的重要性。
过滤冗余视觉token：通过去噪处理得到更纯净的视觉频率，突出对有效视觉内容贡献大的专家。
引入模态级量化敏感度：将每个模态下的量化敏感度作为频率估计的补充信号，更全面地评估专家重要性。
整数线性规划（ILP）：将上述多维度信号整合到ILP优化问题中，在给定比特预算下为每个专家分配最优位宽。

实验效果

大量实验表明，MODE特别适配MoE-MLLMs。在W3A16（权重3比特，激活16比特）设置下，平均性能损失控制在2.9%以内；在极端的2比特设置下，性能提升更为显著。该方法有效解决了传统混合精度量化在多模态场景下的失效问题，为部署高容量MoE多模态模型提供了切实可行的压缩方案。

MODE：面向MoE多模态大模型的模态分解专家级混合精度量化方法

延伸阅读

相关资讯