新上线今天0 投票
专家升级再造:推动混合专家模型的计算效率前沿
混合专家(MoE)架构已成为扩展大型语言模型的主流方案,它通过稀疏专家路由将总参数量与每令牌计算量解耦。缩放定律表明,在固定活跃计算量下,模型质量随总参数量可预测地提升,而MoE通过增加专家数量来实现这一点。然而,训练大型MoE模型成本高昂,因为内存需求和设备间通信都随总参数量增长。
专家升级再造(Expert Upcycling)是一种通过持续预训练(CPT)逐步扩展MoE容量的方法。给定一个已训练的E专家模型,升级再造操作通过专家复制和路由器扩展构建一个mE专家模型,同时保持top-K路由固定,从而保留每令牌推理成本。复制提供了热启动:扩展后的模型继承了源检查点已学习的表示,其初始损失远低于随机初始化。随后的CPT则打破复制专家间的对称性,推动专家专业化。
理论框架与实用优化
研究团队形式化了升级再造操作,并开发了一个理论框架,将质量差距分解为容量项和初始化项。他们进一步引入了基于效用的专家选择,使用基于梯度的重要性分数来指导非均匀复制,在CPT受限时,将差距缩小效果提升超过三倍。
在7B至13B总参数的实验中,升级再造模型在验证损失上匹配了固定尺寸基线,同时节省了32%的GPU小时数。跨模型规模、激活比率、MoE架构和训练预算的全面消融实验,为部署专家升级再造提供了实用指南,确立了其作为从头训练大型MoE模型的一种原则性、计算高效的替代方案。
行业意义与前景
这项研究为AI社区提供了一种更经济、更高效的模型扩展路径,尤其适合资源有限的研究团队和企业。随着MoE在GPT-4、Mixtral等前沿模型中广泛应用,专家升级再造有望降低大模型训练门槛,加速AI创新。其核心价值在于:
- 显著降低计算成本:通过热启动和渐进扩展,减少训练时间和资源消耗。
- 保持推理效率:升级过程中不增加每令牌计算量,确保部署可行性。
- 推动模型迭代:为现有MoE模型的持续优化和规模化提供新思路。
未来,该方法或可结合模型压缩、知识蒸馏等技术,进一步拓展高效训练的前沿。