区分后训练中的能力激发与能力创造:自由能视角
大语言模型(LLM)的后训练阶段——包括监督微调(SFT)和强化学习(RL)——长期以来被简化为“模仿”与“发现”的二分。但一篇来自 arXiv 的新论文指出,这种区分过于粗糙,真正关键的问题在于:训练过程是在提升模型已有行为的概率,还是改变了模型实际可达的行为范围?
论文《On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective》由 Yuhao Li 和 Shengchao Liu 撰写,提出了一个基于自由能的理论框架,将后训练操作明确区分为“能力激发”与“能力创造”。
核心概念:可达支持集
作者引入“可达支持集”这一概念,定义为模型在有限计算预算下能够实际产生的行为集合。后训练对行为的调整如果仅在该集合内部重新分配概率权重,就属于能力激发;而如果改变了集合本身——即让模型能够执行原本无法实现的行为——则属于能力创造。
自由能视角下的统一解释
论文从统计力学中的自由能角度重新审视 SFT 和 RL。两者本质上都是对预训练参考分布进行重新加权:SFT 使用演示信号定义低能量行为,RL 使用奖励信号定义低能量行为。当更新幅度较小、保持接近基础模型时,主要效果是局部的概率重加权,而非创造新能力。
这意味着,SFT 和 RL 在能力激发层面并无本质区别,它们都可以被理解为在可达支持集内优化行为分布。真正区分能力激发与创造的关键,在于训练过程是否通过搜索、交互、工具使用或引入新信息,扩展了模型的可达行为空间。
对后训练研究的启示
该框架将后训练研究的核心问题从“该用 SFT 还是 RL”转向了“我们的训练方法是否真正扩展了模型的能力边界”。如果只依赖静态数据集和固定奖励函数,后训练很可能只是激发已有能力,而非创造新能力。要推动模型能力质的飞跃,需要设计能主动探索新行为、整合外部信息或与环境交互的训练范式。
这一视角对当前 LLM 后训练实践具有直接指导意义:许多看似带来“新能力”的微调,可能只是让模型更擅长展示预训练阶段已潜伏的行为。真正的能力创造需要更根本的训练机制创新。