SheepNav
新上线今天0 投票

FuRA:基于谱预条件的全秩参数高效微调方法

微调新范式:FuRA 如何用全秩更新兼顾效率与性能?

在大型预训练模型(如 LLM 和 VLM)的微调中,全参数微调(Full FT)和参数高效微调方法(如 LoRA)各有利弊。Full FT 虽能保留完整更新空间,但容易因微调数据中的噪声破坏预训练学到的稳健特征;LoRA 等低秩方法虽然参数高效,却限制了模型的表达能力。

最新研究 FuRA(Full-Rank Adaptation) 试图打破这一困局。其核心洞察在于:谱预条件(Spectral Preconditioning) 是此前被忽视的关键。具体而言,FuRA 通过对每个权重矩阵进行全秩奇异值分解(SVD),冻结其中一个奇异基向量,从而将更新约束在预训练列空间内,实现了在相同可训练参数数量下优于无约束 Full FT 的优化方案。

技术细节:块张量列车分解与全秩更新

FuRA 的架构基于一种高效的块张量列车分解

$$W = L S R$$

其中,大型核心矩阵 $L$ 被固定为预训练的块状 SVD 基,而仅优化紧凑核心 $R$ 和块状奇异值 $S$。这种设计同时带来了三大优势:

  1. 全秩谱预条件:通过冻结 $L$ 保留预训练空间的谱结构,避免噪声干扰。
  2. 全秩更新表达能力:$R$ 和 $S$ 的组合仍能实现全秩更新,不损失模型容量。
  3. 参数与计算效率:参数量、内存占用和每步训练时间均与 LoRA 相当,具有实际部署可行性。

实验表现:全面超越 Full FT 与 LoRA

研究者在多个场景中验证了 FuRA 的有效性:

  • LLM 微调:在 LLaMA-3-8B 模型的常识推理任务上,FuRA 比 Full FT 平均提升 +1.37 个点。
  • 数学推理强化学习:在基于强化学习的数学推理微调中,FuRA 同样表现更优。
  • 视觉指令微调:针对 VLM(视觉语言模型)的视觉指令微调,FuRA 也取得了更好的结果。

此外,FuRA 的 4-bit 量化版本 QFuRA 也超越了 QLoRA 的性能,表明该方法在低精度场景下同样有效。

行业意义:效率与性能的平衡点

当前 AI 模型微调领域,Full FT 因计算成本高、易过拟合而逐渐被 LoRA 等 PEFT 方法取代,但 LoRA 的低秩假设在某些任务上存在性能瓶颈。FuRA 提供了一种新的折中方案:通过巧妙的参数化设计,在保持与 LoRA 相当的效率的同时,实现了全秩更新的表达能力,甚至超越了 Full FT 的性能

对于需要部署大规模模型的企业和研究者而言,FuRA 具有重要参考价值。它不仅适用于 LLM,还扩展到 VLM 等更复杂的多模态模型。代码已开源,感兴趣的读者可以进一步探索。

延伸阅读

  1. LLM何时需要推理?熵相变视角下的动态系统解读
  2. MedExpMem: Adapting Experience Memory for Differential Diagnosis
  3. Manifold Representation Forgetting:一种基于流形表示遗忘的近似机器反学习新方法
查看原文