区分后训练中能力激发与能力创造：自由能视角

大语言模型（LLM）的后训练阶段——包括监督微调（SFT）和强化学习（RL）——长期以来被简化为“模仿”与“发现”的二分。但一篇来自 arXiv 的新论文指出，这种区分过于粗糙，真正关键的问题在于：训练过程是在提升模型已有行为的概率，还是改变了模型实际可达的行为范围？

论文《On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective》由 Yuhao Li 和 Shengchao Liu 撰写，提出了一个基于自由能的理论框架，将后训练操作明确区分为“能力激发”与“能力创造”。

核心概念：可达支持集

作者引入“可达支持集”这一概念，定义为模型在有限计算预算下能够实际产生的行为集合。后训练对行为的调整如果仅在该集合内部重新分配概率权重，就属于能力激发；而如果改变了集合本身——即让模型能够执行原本无法实现的行为——则属于能力创造。

自由能视角下的统一解释

论文从统计力学中的自由能角度重新审视 SFT 和 RL。两者本质上都是对预训练参考分布进行重新加权：SFT 使用演示信号定义低能量行为，RL 使用奖励信号定义低能量行为。当更新幅度较小、保持接近基础模型时，主要效果是局部的概率重加权，而非创造新能力。

这意味着，SFT 和 RL 在能力激发层面并无本质区别，它们都可以被理解为在可达支持集内优化行为分布。真正区分能力激发与创造的关键，在于训练过程是否通过搜索、交互、工具使用或引入新信息，扩展了模型的可达行为空间。

对后训练研究的启示

该框架将后训练研究的核心问题从“该用 SFT 还是 RL”转向了“我们的训练方法是否真正扩展了模型的能力边界”。如果只依赖静态数据集和固定奖励函数，后训练很可能只是激发已有能力，而非创造新能力。要推动模型能力质的飞跃，需要设计能主动探索新行为、整合外部信息或与环境交互的训练范式。

这一视角对当前 LLM 后训练实践具有直接指导意义：许多看似带来“新能力”的微调，可能只是让模型更擅长展示预训练阶段已潜伏的行为。真正的能力创造需要更根本的训练机制创新。

区分后训练中的能力激发与能力创造：自由能视角

核心概念：可达支持集

自由能视角下的统一解释

对后训练研究的启示

延伸阅读

相关资讯