SheepNav
新上线今天0 投票

监督微调(SFT)的层间分析:揭示指令跟随能力的涌现机制

监督微调(SFT)是大型语言模型对齐的关键步骤,但常伴随灾难性遗忘的风险,且指令跟随能力如何在模型各层中具体形成一直是个谜。一项最新研究通过信息论、几何和优化指标,对1B到32B不同规模的模型进行了全面分析,揭示了SFT过程中一个清晰的深度依赖模式。

研究发现:中间层稳定,最终层敏感

实验结果显示,在SFT过程中,模型的中间层(约20%到80%深度)表现出较高的稳定性,而最终层则显示出极高的敏感性。这意味着指令跟随能力的形成并非均匀分布于整个网络,而是高度集中于模型的中间部分。这一发现挑战了传统上认为对齐需要全局调整的观点,表明有效的对齐在架构上是局部化的。

方法创新:Mid-Block Efficient Tuning

基于这一洞察,研究团队提出了**Mid-Block Efficient Tuning(中间块高效调优)**方法。该方法选择性地更新那些关键的中间层,而不是像标准LoRA那样广泛调整参数。

性能表现

在实证测试中,该方法在GSM8K基准测试(使用OLMo2-7B模型)上比标准LoRA性能提升高达10.2%,同时显著减少了参数开销。这不仅证明了方法的有效性,也进一步支持了“对齐是局部化而非分布式”的结论。

行业意义与启示

这项研究为AI模型的高效对齐提供了新的思路:

  • 降低计算成本:通过针对性调整中间层,可以减少训练所需的计算资源和时间。
  • 缓解灾难性遗忘:局部化调整可能有助于保留模型在预训练阶段获得的基础知识。
  • 指导模型设计:未来模型架构可能会更加注重中间层的设计,以优化对齐效率。

总结

这项层间分析研究不仅揭示了SFT过程中指令跟随能力的形成机制,还提出了一种高效的对齐方法。随着AI模型规模的不断扩大,这种针对性的调优策略可能成为平衡性能与效率的关键技术。研究代码已公开,为社区进一步探索提供了基础。

延伸阅读

  1. 无归一化Transformer初始化时的亚临界信号传播研究
  2. 小规模模型行为蒸馏实验:一项三阶段负面结果研究
  3. DBGL:面向不规则医疗时间序列分类的衰减感知二分图学习
查看原文