HELLoRA:面向混合专家模型的热门专家层低秩适配方法
概述
低秩适配(LoRA)是大语言模型参数高效微调的主流方法,但其变体大多针对密集架构设计。混合专家(MoE)模型以近乎恒定的每token计算量扩展参数规模,其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出HELLoRA(Hot-Experts Layer-level Low-Rank Adaptation),该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs,还提升了下游性能——我们将此归因于一种结构化正则化效应,它保留了预训练专家的专业化能力。
为了在极端参数预算下测试HELLoRA,我们进一步将其与LoRI组合形成HELLoRI,后者冻结上投影并稀疏化下投影。在三个MoE基座模型(OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE)以及涵盖数学推理、代码生成和安全对齐的三类任务上,HELLoRA持续优于强PEFT基线。
核心优势
- 参数效率:在OlMoE上,相比标准LoRA,HELLoRA仅使用15.7%的可训练参数,适配器FLOPs降低38.7%,训练吞吐量提升1.9倍,同时准确率提高9.2%。
- 性能提升:在DeepSeekMoE上,HELLoRA仅用23.2%的可训练参数即超越LoRA。
- 即插即用:无需修改模型架构,仅需识别热点专家并附加低秩矩阵。
技术细节
HELLoRA的核心在于激活感知的适配器放置。MoE模型的前向计算中,每个token只激活少量专家(如Top-2),而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率,选取每层激活次数最高的k个专家(称为“热点专家”),仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少,同时由于热点专家承载了大部分计算,微调仍能有效影响模型行为。
实验表明,HELLoRA的效果优于随机选择专家或均匀分配适配器的方案,说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为,限制适配范围起到正则化作用,防止过拟合,并维持了专家之间的分工。
与现有工作的关系
现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计,直接应用于MoE时要么参数效率低,要么忽略专家激活的差异性。HELLoRA填补了这一空白,并展示了将架构先验(稀疏激活)融入适配策略的有效性。此外,HELLoRI的极端压缩版本(冻结上投影)进一步证明了在极低参数预算下仍能保持竞争力。
结论
HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用(如Mixtral、DeepSeek、Qwen等),激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。