自对弈进化瓶颈破解：自合成数据管道需确保信息增益

随着大型语言模型（LLM）能力的提升，构建能够通过自我循环不断进化的系统成为可能。然而，许多现有方案本质上更接近于自对弈（self-play），往往在短期内就陷入性能瓶颈。一项最新研究指出，问题的核心在于：这些循环虽然生成了更多数据，却未能为下一次迭代提供可学习的信息增益。

自对弈的瓶颈：数据量≠信息量

在传统的自对弈框架中，模型通过生成任务、尝试解决、评估反馈的循环来训练自身。但研究者发现，如果循环仅仅是重复相似的任务或解决方案，新生成的数据在信息熵上并无实质增加，导致模型很快进入平台期。这好比一个学生反复刷同一套题——题量增加了，但知识水平并未提升。

论文通过一个自对弈编程任务的实验验证了这一现象：当系统仅依赖内部循环生成数据时，性能提升在几轮迭代后便趋于停滞。

研究团队提出了一个基于三元角色的框架，将自我进化的LLM分解为：

从这一视角出发，他们提出了三种系统设计，共同确保可学习信息的持续增长：

打破角色间的对称性，形成**“弱-强-弱”的循环**。例如，让一个较弱的提议者生成任务，由较强的求解者解决，再由另一个较弱的验证者提供反馈。这种不对称性迫使系统在不同角色间传递和转化知识，避免陷入自我重复的僵局。

随着可学习信息的增加，系统需要相应的参数规模和推理时间预算来消化这些信息。这意味着模型容量或计算资源应随迭代逐步扩展，以匹配信息复杂度的提升。

引入外部上下文和新任务源，防止系统饱和。例如，从真实世界数据、用户交互或其他知识库中汲取新信息，为提议者提供更丰富的任务灵感，从而打破内部循环的封闭性。

这三种模块共同作用，为系统提供了一条可衡量的、系统级的进化路径。研究团队强调，可持续的自我进化不是简单地“生成更多数据”，而是确保每一轮迭代都能带来信息增益——即数据中包含新的、可被模型学习的模式或知识。

这项研究对AI社区具有重要启示：在追求模型自主进化的道路上，我们需超越单纯的数据合成，转向信息驱动的系统设计。未来，结合外部知识注入、动态资源分配和非对称学习机制，或许能真正实现LLM的长期、稳定自我提升。

论文信息：arXiv:2603.02218，作者：Wei Liu, Siya Qi, Yali Du, Yulan He，发表于2026年2月。