Rotation-Preserving SFT：高效提升大模型泛化能力的新方法

概述

大语言模型（LLM）的监督微调（SFT）虽然在特定任务上表现出色，但常常会损害模型的域外泛化能力。来自麦吉尔大学等机构的研究者提出了一种名为 Rotation-Preserving Supervised Fine-Tuning (RPSFT) 的新方法，旨在平衡领域内性能与泛化能力，同时避免高昂的计算成本。

问题与挑战

传统观点认为，SFT 导致的泛化下降与预训练权重矩阵中主导奇异子空间的变化有关。然而，直接使用 Hessian 或 Fisher 信息来识别对损失敏感的方向，在 LLM 规模下计算量巨大，难以实际应用。

RPSFT 的核心思想

RPSFT 提供了一种高效的近似方案：保留预训练奇异子空间中的投影旋转。具体来说，该方法对每个预训练权重矩阵的前 k 个奇异向量块的投影变化施加惩罚，限制不必要的旋转，同时允许模型进行必要的任务适应。

这种方法巧妙地绕开了计算 Fisher 信息的难题，将约束聚焦于对泛化最关键的方向上。

实验结果

研究者在多个模型家族和不同规模上，使用数学推理数据进行了实验。结果表明：

更好的权衡：RPSFT 在领域内性能与域外泛化之间取得了比标准 SFT 和强基线方法更优的平衡。
表示保持：RPSFT 能更好地保留预训练阶段的特征表示，避免灾难性遗忘。
强化学习初始化：RPSFT 微调后的模型为后续的强化学习微调（RLHF 等）提供了更强的初始化起点。

意义与展望

RPSFT 的提出为 LLM 微调中的泛化问题提供了一种轻量级、可落地的解决方案。它不仅降低了计算门槛，还揭示了预训练权重子空间结构在微调中的关键作用。未来，该方法有望被集成到主流的微调框架中，成为提升模型鲁棒性的标准工具。

论文代码已开源，感兴趣的研究者可以进一步探索其在更多任务和更大模型上的表现。

旋转保持微调：一种高效提升大模型泛化能力的新方法

概述

问题与挑战

RPSFT 的核心思想

实验结果

意义与展望

延伸阅读

相关资讯