打破求解瓶颈:在可学习前沿训练任务生成器
强化学习(RL)训练智能体的资源瓶颈正逐渐转向“前沿任务供给”——那些有效、可解、且刚好足够挑战当前模型的任务。随着推理和智能体模型能力的提升,固定任务分布迅速饱和,而简单的合成生成又会产生琐碎、不可能或不适定的任务。为此,来自多个机构的研究者在论文《Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier》中提出了PROPEL框架,一种求解器摊销(solver-amortized)方法,能够在不频繁调用求解器的情况下,训练任务生成器以瞄准目标求解率。
核心挑战:任务生成与求解器评估的权衡
在RL中,任务生成器通常需要与求解器(solver)配合:生成器创建任务,求解器尝试解决。理想的生成器应产出处于“可学习前沿”的任务——既不过于简单(已学会)也不过于困难(无法学会)。然而,直接优化任务生成器需要大量求解器评估:每一个候选任务都需要求解器实际运行,对于软件工程(SWE)任务,单次求解可能耗时数十分钟,导致训练难以扩展。
PROPEL框架:轻量级探针作为代理
PROPEL的核心思想是解耦生成器优化与求解器评估。具体来说,它首先在一个一次性标注的语料库上训练一个轻量级激活探针(activation probe)。该语料库由生成器生成的任务及其在目标求解器上的结果组成。探针从冻结的生成器参考模型中提取特征,并预测任务在目标求解器上的通过率。一旦探针训练完成,它就可以作为求解率的代理,在生成器优化过程中仅需一次前向传播即可评估任务质量,从而避免了昂贵的求解器调用。
实验结果:显著提升前沿任务比例
在数学、代码和软件工程等多种任务上,PROPEL均有效将生成分布向目标求解率偏移。例如:
- 代码任务:对于Qwen2.5-3B-Instruct求解器,可学习前沿任务占比从10.1%提升至20.0%;对于Qwen2.5-7B-Instruct求解器,从5.3%提升至12.6%。
- 软件工程任务:在未见过的仓库上,对于Qwen3.5-27B求解器,前沿任务占比从9.8%提升至19.6%。
这些结果表明,PROPEL能够在不牺牲效率的前提下,显著提升任务生成的“前沿性”。
意义与展望
PROPEL为RL中的任务生成瓶颈提供了一种实用解决方案。通过摊销求解器评估,它使得训练更强大的任务生成器成为可能,进而推动智能体在更复杂、更真实的环境中进行持续学习。未来工作可进一步探索探针的泛化能力,以及将其应用于多求解器场景。
