专家升级再造：MoE模型高效训练新方法，节省32%GPU时间

混合专家（MoE）架构已成为扩展大型语言模型的主流方案，它通过稀疏专家路由将总参数量与每令牌计算量解耦。缩放定律表明，在固定活跃计算量下，模型质量随总参数量可预测地提升，而MoE通过增加专家数量来实现这一点。然而，训练大型MoE模型成本高昂，因为内存需求和设备间通信都随总参数量增长。

专家升级再造（Expert Upcycling）是一种通过持续预训练（CPT）逐步扩展MoE容量的方法。给定一个已训练的E专家模型，升级再造操作通过专家复制和路由器扩展构建一个mE专家模型，同时保持top-K路由固定，从而保留每令牌推理成本。复制提供了热启动：扩展后的模型继承了源检查点已学习的表示，其初始损失远低于随机初始化。随后的CPT则打破复制专家间的对称性，推动专家专业化。

理论框架与实用优化

研究团队形式化了升级再造操作，并开发了一个理论框架，将质量差距分解为容量项和初始化项。他们进一步引入了基于效用的专家选择，使用基于梯度的重要性分数来指导非均匀复制，在CPT受限时，将差距缩小效果提升超过三倍。

在7B至13B总参数的实验中，升级再造模型在验证损失上匹配了固定尺寸基线，同时节省了32%的GPU小时数。跨模型规模、激活比率、MoE架构和训练预算的全面消融实验，为部署专家升级再造提供了实用指南，确立了其作为从头训练大型MoE模型的一种原则性、计算高效的替代方案。

行业意义与前景

这项研究为AI社区提供了一种更经济、更高效的模型扩展路径，尤其适合资源有限的研究团队和企业。随着MoE在GPT-4、Mixtral等前沿模型中广泛应用，专家升级再造有望降低大模型训练门槛，加速AI创新。其核心价值在于：

显著降低计算成本：通过热启动和渐进扩展，减少训练时间和资源消耗。
保持推理效率：升级过程中不增加每令牌计算量，确保部署可行性。
推动模型迭代：为现有MoE模型的持续优化和规模化提供新思路。

未来，该方法或可结合模型压缩、知识蒸馏等技术，进一步拓展高效训练的前沿。

专家升级再造：推动混合专家模型的计算效率前沿

延伸阅读

相关资讯