HELLoRA：MoE模型的高效低秩适配方法

概述

低秩适配（LoRA）是大语言模型参数高效微调的主流方法，但其变体大多针对密集架构设计。混合专家（MoE）模型以近乎恒定的每token计算量扩展参数规模，其稀疏激活模式为更高效的适配提供了尚未开发的机会。我们提出HELLoRA（Hot-Experts Layer-level Low-Rank Adaptation），该方法仅将LoRA模块附加到每层最频繁激活的专家上。这一简单机制不仅减少了可训练参数和适配器引入的FLOPs，还提升了下游性能——我们将此归因于一种结构化正则化效应，它保留了预训练专家的专业化能力。

为了在极端参数预算下测试HELLoRA，我们进一步将其与LoRI组合形成HELLoRI，后者冻结上投影并稀疏化下投影。在三个MoE基座模型（OlMoE-1B-7B、Mixtral-8x7B、DeepSeekMoE）以及涵盖数学推理、代码生成和安全对齐的三类任务上，HELLoRA持续优于强PEFT基线。

核心优势

参数效率：在OlMoE上，相比标准LoRA，HELLoRA仅使用15.7%的可训练参数，适配器FLOPs降低38.7%，训练吞吐量提升1.9倍，同时准确率提高9.2%。
性能提升：在DeepSeekMoE上，HELLoRA仅用23.2%的可训练参数即超越LoRA。
即插即用：无需修改模型架构，仅需识别热点专家并附加低秩矩阵。

技术细节

HELLoRA的核心在于激活感知的适配器放置。MoE模型的前向计算中，每个token只激活少量专家（如Top-2），而不同专家的激活频率差异显著。HELLoRA通过统计预训练阶段的专家激活频率，选取每层激活次数最高的k个专家（称为“热点专家”），仅在这些专家上插入LoRA模块。这种选择性适配使得可训练参数大幅减少，同时由于热点专家承载了大部分计算，微调仍能有效影响模型行为。

实验表明，HELLoRA的效果优于随机选择专家或均匀分配适配器的方案，说明其成功利用了MoE的稀疏激活特性。作者进一步分析认为，限制适配范围起到正则化作用，防止过拟合，并维持了专家之间的分工。

与现有工作的关系

现有PEFT方法如LoRA、AdaLoRA、DoRA等主要针对密集模型设计，直接应用于MoE时要么参数效率低，要么忽略专家激活的差异性。HELLoRA填补了这一空白，并展示了将架构先验（稀疏激活）融入适配策略的有效性。此外，HELLoRI的极端压缩版本（冻结上投影）进一步证明了在极低参数预算下仍能保持竞争力。

结论

HELLoRA提供了一种简单、高效且可推广的MoE模型微调方案。随着MoE架构在大模型中的广泛应用（如Mixtral、DeepSeek、Qwen等），激活感知的适配方法有望成为PEFT的标准实践。未来工作可探索动态热点选择、专家间适配共享等方向。

HELLoRA：面向混合专家模型的热门专家层低秩适配方法

概述

核心优势

技术细节

与现有工作的关系

结论

延伸阅读

相关资讯