MoE压缩新发现：路由校准是关键，免重训练需调整路由器

免重训练压缩的局限：被忽视的路由-专家失配问题

混合专家（Mixture-of-Experts，MoE）模型通过稀疏激活机制，在保持计算效率的同时大幅扩展模型容量，已成为大语言模型（LLM）规模化的关键技术路径。然而，MoE模型的庞大参数量（动辄数百亿甚至数千亿）带来了严峻的部署时内存瓶颈。为了缓解这一问题，业界提出了多种免重训练（Retraining-Free）的压缩方法，旨在不进行昂贵的全模型微调的情况下，减少模型体积。

一篇最新的研究论文《Is Retraining-Free Enough? The Necessity of Router Calibration for Efficient MoE Compression》系统性地审视了这些方法，并揭示了一个普遍被忽视的核心问题：路由-专家失配（Router-Expert Mismatch）。

三种主流压缩范式及其共同痛点

该研究将现有的免重训练MoE压缩技术归纳为三大范式：

专家剪枝（Expert Pruning）：直接移除部分专家。
专家编辑（Expert Editing）：修改现有专家的内部参数。
专家合并（Expert Merging）：将多个专家融合为一个。

这些方法的共同点是，它们都改变了“专家”部分（即模型的知识载体），但通常保持“路由”部分（即决定输入应由哪个专家处理的组件）完全不变。这导致了根本性的不匹配：路由器的决策逻辑是基于原始专家配置学习的，当专家被移除、修改或合并后，路由器依然会按照旧有的“地图”来分配任务，结果自然是性能的显著下降。这种性能损失在压缩后持续存在，成为阻碍高效部署的“顽固”障碍。

核心论点：轻量级路由校准是关键

论文的核心论点是，有效的免重训练压缩策略应遵循一个原则：避免更新专家参数，但允许对路由器进行轻量级的校准（Calibration）。换言之，在改变专家结构后，必须同步调整路由器的“认知”，使其适应新的专家格局。

解决方案：路由器知识蒸馏（Router KD）

为此，研究者提出了 “路由器知识蒸馏”（Router Knowledge Distillation， Router KD） 方法。该方法的精妙之处在于其极致的轻量性：

仅更新路由器参数：整个压缩-校准过程中，专家部分的参数被冻结，仅更新路由器这一小部分参数（通常只占模型总参数的极小比例）。
利用未标注校准数据：校准过程不需要任何标注数据，仅需少量未标注的文本作为校准集。
蒸馏原始模型的预测分布：校准的目标是让压缩后模型（仅路由器可调）的下一词元（next-token）预测概率分布，尽可能接近原始未压缩模型的预测分布。这相当于让新路由器“学习”原始模型在面临输入时，应如何更合理地利用现有的（已被压缩的）专家们。

实验验证与重要发现

研究在涵盖上述三种范式的多种代表性压缩方法上进行了广泛实验，验证了Router KD的有效性。结果显示：

一致的性能恢复：在应用Router KD进行轻量级路由校准后，所有压缩方法的性能都得到了显著且一致的恢复，有效弥补了因路由-专家失配带来的精度损失。
细粒度MoE受益更大：一个有趣的发现是，Router KD带来的性能提升在细粒度MoE（包含大量小型专家）模型中远大于在粗粒度MoE（包含少量大型专家）模型中。研究者分析认为，这是因为细粒度MoE具有更复杂、更精细的路由决策边界，对专家变化的敏感度更高，因此路由校准带来的调整效益也更为明显。

对AI行业的意义与启示

这项研究为MoE模型的高效实用化部署提供了关键的技术洞察：

纠正认知偏差：它明确指出，单纯对MoE模型进行“外科手术式”的专家压缩而不调整路由器，是效果不完整的。未来的压缩方案设计必须将“路由校准”视为一个不可或缺的环节。
提供高效路径：Router KD方法本身极具实用价值，其免重训练、仅微调极小参数、无需标注数据的特点，使得它成为一种部署友好、成本低廉的后处理校准工具，易于集成到现有的MoE压缩流水线中。
推动模型轻量化：随着AI模型向更大规模发展，如何让大模型“瘦身”并跑在更广泛的硬件上是一个核心挑战。这项工作为MoE这一重要架构的轻量化提供了更优解，有助于降低大模型的部署门槛和推理成本。

总之，这项研究提醒我们，在追求模型压缩效率的同时，必须尊重模型内部组件（如路由与专家）之间的协同关系。免重训练是手段，而非目的；高效压缩的关键，在于精准而轻量的协同调整。

免重训练就够了吗？高效MoE压缩中路由校准的必要性