FuRA:基于谱预条件的全秩参数高效微调方法
微调新范式:FuRA 如何用全秩更新兼顾效率与性能?
在大型预训练模型(如 LLM 和 VLM)的微调中,全参数微调(Full FT)和参数高效微调方法(如 LoRA)各有利弊。Full FT 虽能保留完整更新空间,但容易因微调数据中的噪声破坏预训练学到的稳健特征;LoRA 等低秩方法虽然参数高效,却限制了模型的表达能力。
最新研究 FuRA(Full-Rank Adaptation) 试图打破这一困局。其核心洞察在于:谱预条件(Spectral Preconditioning) 是此前被忽视的关键。具体而言,FuRA 通过对每个权重矩阵进行全秩奇异值分解(SVD),冻结其中一个奇异基向量,从而将更新约束在预训练列空间内,实现了在相同可训练参数数量下优于无约束 Full FT 的优化方案。
技术细节:块张量列车分解与全秩更新
FuRA 的架构基于一种高效的块张量列车分解:
$$W = L S R$$
其中,大型核心矩阵 $L$ 被固定为预训练的块状 SVD 基,而仅优化紧凑核心 $R$ 和块状奇异值 $S$。这种设计同时带来了三大优势:
- 全秩谱预条件:通过冻结 $L$ 保留预训练空间的谱结构,避免噪声干扰。
- 全秩更新表达能力:$R$ 和 $S$ 的组合仍能实现全秩更新,不损失模型容量。
- 参数与计算效率:参数量、内存占用和每步训练时间均与 LoRA 相当,具有实际部署可行性。
实验表现:全面超越 Full FT 与 LoRA
研究者在多个场景中验证了 FuRA 的有效性:
- LLM 微调:在 LLaMA-3-8B 模型的常识推理任务上,FuRA 比 Full FT 平均提升 +1.37 个点。
- 数学推理强化学习:在基于强化学习的数学推理微调中,FuRA 同样表现更优。
- 视觉指令微调:针对 VLM(视觉语言模型)的视觉指令微调,FuRA 也取得了更好的结果。
此外,FuRA 的 4-bit 量化版本 QFuRA 也超越了 QLoRA 的性能,表明该方法在低精度场景下同样有效。
行业意义:效率与性能的平衡点
当前 AI 模型微调领域,Full FT 因计算成本高、易过拟合而逐渐被 LoRA 等 PEFT 方法取代,但 LoRA 的低秩假设在某些任务上存在性能瓶颈。FuRA 提供了一种新的折中方案:通过巧妙的参数化设计,在保持与 LoRA 相当的效率的同时,实现了全秩更新的表达能力,甚至超越了 Full FT 的性能。
对于需要部署大规模模型的企业和研究者而言,FuRA 具有重要参考价值。它不仅适用于 LLM,还扩展到 VLM 等更复杂的多模态模型。代码已开源,感兴趣的读者可以进一步探索。