监督微调层间分析：中间层稳定，最终层敏感

监督微调（SFT）是大型语言模型对齐的关键步骤，但常伴随灾难性遗忘的风险，且指令跟随能力如何在模型各层中具体形成一直是个谜。一项最新研究通过信息论、几何和优化指标，对1B到32B不同规模的模型进行了全面分析，揭示了SFT过程中一个清晰的深度依赖模式。

研究发现：中间层稳定，最终层敏感

实验结果显示，在SFT过程中，模型的中间层（约20%到80%深度）表现出较高的稳定性，而最终层则显示出极高的敏感性。这意味着指令跟随能力的形成并非均匀分布于整个网络，而是高度集中于模型的中间部分。这一发现挑战了传统上认为对齐需要全局调整的观点，表明有效的对齐在架构上是局部化的。

方法创新：Mid-Block Efficient Tuning

基于这一洞察，研究团队提出了**Mid-Block Efficient Tuning（中间块高效调优）**方法。该方法选择性地更新那些关键的中间层，而不是像标准LoRA那样广泛调整参数。

性能表现

在实证测试中，该方法在GSM8K基准测试（使用OLMo2-7B模型）上比标准LoRA性能提升高达10.2%，同时显著减少了参数开销。这不仅证明了方法的有效性，也进一步支持了“对齐是局部化而非分布式”的结论。

行业意义与启示

这项研究为AI模型的高效对齐提供了新的思路：

降低计算成本：通过针对性调整中间层，可以减少训练所需的计算资源和时间。
缓解灾难性遗忘：局部化调整可能有助于保留模型在预训练阶段获得的基础知识。
指导模型设计：未来模型架构可能会更加注重中间层的设计，以优化对齐效率。

总结

这项层间分析研究不仅揭示了SFT过程中指令跟随能力的形成机制，还提出了一种高效的对齐方法。随着AI模型规模的不断扩大，这种针对性的调优策略可能成为平衡性能与效率的关键技术。研究代码已公开，为社区进一步探索提供了基础。

监督微调（SFT）的层间分析：揭示指令跟随能力的涌现机制

研究发现：中间层稳定，最终层敏感

方法创新：Mid-Block Efficient Tuning

性能表现

行业意义与启示

总结

延伸阅读

相关资讯