SheepNav
新上线今天0 投票

DRIFT:基于同策略数据归因的精调指令数据优化方法

在监督微调(SFT)中,训练数据的分布直接影响大语言模型(LLM)的最终能力。传统数据筛选方法虽能在有限预算下加速训练,但往往难以突破模型性能的上限。近期一篇来自 arXiv 的论文提出了一种名为 DRIFT(Data Refinement via On-Policy Influence Functions for Supervised Fine-Tuning)的新方法,通过同策略数据归因来精细化调整指令数据分布,从而持续提升模型能力边界。

核心问题:从“筛选”到“精炼”

现有数据筛选方法侧重于从大规模数据中选出子集以维持性能,但研究者指出,真正的挑战已不再是“找更小的子集”,而是“将数据分布调整为最有助于提升模型能力的实例”。为此,DRIFT 引入了基于影响函数(Influence Functions, IF)的实例级数据归因。

技术突破:解决影响函数的两大局限

影响函数虽能估计每个训练样本对模型输出的贡献,但在 SFT 场景中面临两个结构性问题:

  1. 邻近性差距(Proximity Gap):由于使用离线(off-policy)验证目标,导致参数空间中的局部近似失效。
  2. 梯度范数偏差(Gradient Norm Bias):影响分数严重偏向梯度范数大的样本,掩盖了真实贡献。

DRIFT 的创新在于:

  • 同策略验证目标:利用模型自身的同策略(on-policy)生成结果作为验证目标,而非依赖外部参考数据。这有效缩小了参数邻近性差距,使影响函数更符合局部线性假设。
  • 轨迹正确性加权:根据模型在验证查询上的生成轨迹正确性进行符号加权,并针对“梯度黑客”问题对影响分数去偏,从而仅用少量验证查询就能作为可靠锚点,归因整个训练集。

实验效果:突破性能天花板

在 7B 参数的指令微调和推理模型上,DRIFT 持续提升了性能上限,优于现有数据筛选基线。这表明,通过精细化的数据归因,可以更高效地利用训练数据,推动模型在复杂任务上达到更高水平。

行业意义:数据精炼成为新焦点

随着 LLM 参数规模的增长,数据质量对模型能力的影响愈发关键。DRIFT 提供了一种从“量”到“质”的转变思路:不是简单地剔除低质量数据,而是主动优化数据分布,使每个实例都能最大化地贡献于模型进步。这对于构建更强大、更可靠的 AI 系统具有重要参考价值。

延伸阅读

  1. Fisher宽度:统计流形上的几何复杂度度量
  2. MoE模型压缩新突破:基于归因引导与覆盖最大化的结构化剪枝框架
  3. 冲击波理论与神经网络随机梯度下降的对称约化动力学:一项数学链接
查看原文