FoLoRA:用广义瑞利商优化实现基础模型微调与能力保持的平衡
微调基础模型的两难困境
大型基础模型(如LLaMA、GPT等)在预训练阶段积累了广泛的能力,但在针对特定下游任务进行微调时,往往会遗忘预训练阶段学到的非目标能力。例如,一个擅长数学推理的模型,经过指令微调后可能数学能力下降。现有方法通过特殊初始化或固定约束来缓解遗忘,但无法在训练过程中动态调节适配与保持的权衡。
FoLoRA:基于广义瑞利商的遗忘感知优化框架
来自德克萨斯大学奥斯汀分校和微软的研究团队提出FoLoRA(Foundation Preserving LoRA),这是一种遗忘感知优化框架,核心创新在于将广义瑞利商引入微调过程。FoLoRA通过以下步骤实现适配与保持的平衡:
定义两个关键指标:
- 遗忘惩罚:基于预训练代理激活(通过从预训练模型采样构建的校准数据计算)衡量更新方向对非目标能力的损害;
- 任务效用:基于下游任务激活衡量更新方向对目标任务的贡献。
广义瑞利商评分:将每个更新方向的得分定义为“任务效用/遗忘惩罚”,即每单位遗忘惩罚带来的任务效用。得分高的方向表示在遗忘较少的情况下提升目标任务。
谱坐标系统与门控Adam更新:利用广义瑞利商构建谱坐标系统,对低效用-高惩罚的方向进行衰减(即门控),从而在Adam优化器中动态调整更新强度。
创新校准数据构建
FoLoRA另一个亮点是预训练代理校准数据的生成:不依赖单一代理数据集,而是从预训练模型本身采样。这种方法更具通用性,避免了代理数据集偏差,同时降低了对外部数据的依赖。
实验效果
在数学、代码和指令跟随三个适配场景下的实验表明,FoLoRA在保持非目标能力(如通用知识、推理)方面显著优于现有基线方法(如LoRA、DARE等),同时目标任务性能也有提升。例如,在数学适配中,FoLoRA在GSM8K上保持高准确率的同时,代码生成能力下降幅度最小。
行业意义
FoLoRA为基础模型持续学习和多能力平衡提供了新思路。随着模型在垂直领域(如医疗、法律)的广泛应用,如何在不破坏通用能力的前提下进行高效适配,成为关键挑战。FoLoRA的动态门控机制和代理数据采样策略具有实用价值,可集成到现有LoRA微调流程中,为开发者提供更安全的微调方案。
小结
FoLoRA通过广义瑞利商优化,将遗忘惩罚和任务效用统一到一个数学框架中,实现了微调过程中适配与保持的精细调节。该方法在多个任务上展示了优越性,有望成为基础模型适配的标准工具之一。未来工作可能包括扩展到更大模型和更多模态,以及探索更高效的代理数据构建方式。