FuRA：全秩参数高效微调，性能超越Full FT和LoRA

微调新范式：FuRA 如何用全秩更新兼顾效率与性能？

在大型预训练模型（如 LLM 和 VLM）的微调中，全参数微调（Full FT）和参数高效微调方法（如 LoRA）各有利弊。Full FT 虽能保留完整更新空间，但容易因微调数据中的噪声破坏预训练学到的稳健特征；LoRA 等低秩方法虽然参数高效，却限制了模型的表达能力。

最新研究 FuRA（Full-Rank Adaptation） 试图打破这一困局。其核心洞察在于：谱预条件（Spectral Preconditioning） 是此前被忽视的关键。具体而言，FuRA 通过对每个权重矩阵进行全秩奇异值分解（SVD），冻结其中一个奇异基向量，从而将更新约束在预训练列空间内，实现了在相同可训练参数数量下优于无约束 Full FT 的优化方案。

技术细节：块张量列车分解与全秩更新

FuRA 的架构基于一种高效的块张量列车分解：

$$W = L S R$$

其中，大型核心矩阵 $L$ 被固定为预训练的块状 SVD 基，而仅优化紧凑核心 $R$ 和块状奇异值 $S$。这种设计同时带来了三大优势：

全秩谱预条件：通过冻结 $L$ 保留预训练空间的谱结构，避免噪声干扰。
全秩更新表达能力：$R$ 和 $S$ 的组合仍能实现全秩更新，不损失模型容量。
参数与计算效率：参数量、内存占用和每步训练时间均与 LoRA 相当，具有实际部署可行性。

实验表现：全面超越 Full FT 与 LoRA

研究者在多个场景中验证了 FuRA 的有效性：

LLM 微调：在 LLaMA-3-8B 模型的常识推理任务上，FuRA 比 Full FT 平均提升 +1.37 个点。
数学推理强化学习：在基于强化学习的数学推理微调中，FuRA 同样表现更优。
视觉指令微调：针对 VLM（视觉语言模型）的视觉指令微调，FuRA 也取得了更好的结果。

此外，FuRA 的 4-bit 量化版本 QFuRA 也超越了 QLoRA 的性能，表明该方法在低精度场景下同样有效。

行业意义：效率与性能的平衡点

当前 AI 模型微调领域，Full FT 因计算成本高、易过拟合而逐渐被 LoRA 等 PEFT 方法取代，但 LoRA 的低秩假设在某些任务上存在性能瓶颈。FuRA 提供了一种新的折中方案：通过巧妙的参数化设计，在保持与 LoRA 相当的效率的同时，实现了全秩更新的表达能力，甚至超越了 Full FT 的性能。

对于需要部署大规模模型的企业和研究者而言，FuRA 具有重要参考价值。它不仅适用于 LLM，还扩展到 VLM 等更复杂的多模态模型。代码已开源，感兴趣的读者可以进一步探索。

FuRA：基于谱预条件的全秩参数高效微调方法

微调新范式：FuRA 如何用全秩更新兼顾效率与性能？

技术细节：块张量列车分解与全秩更新

实验表现：全面超越 Full FT 与 LoRA

行业意义：效率与性能的平衡点

延伸阅读

相关资讯