PROPEL框架：打破强化学习任务生成瓶颈，前沿任务占比翻倍

强化学习（RL）训练智能体的资源瓶颈正逐渐转向“前沿任务供给”——那些有效、可解、且刚好足够挑战当前模型的任务。随着推理和智能体模型能力的提升，固定任务分布迅速饱和，而简单的合成生成又会产生琐碎、不可能或不适定的任务。为此，来自多个机构的研究者在论文《Breaking the Solver Bottleneck: Training Task Generators at the Learnable Frontier》中提出了PROPEL框架，一种求解器摊销（solver-amortized）方法，能够在不频繁调用求解器的情况下，训练任务生成器以瞄准目标求解率。

核心挑战：任务生成与求解器评估的权衡

在RL中，任务生成器通常需要与求解器（solver）配合：生成器创建任务，求解器尝试解决。理想的生成器应产出处于“可学习前沿”的任务——既不过于简单（已学会）也不过于困难（无法学会）。然而，直接优化任务生成器需要大量求解器评估：每一个候选任务都需要求解器实际运行，对于软件工程（SWE）任务，单次求解可能耗时数十分钟，导致训练难以扩展。

PROPEL框架：轻量级探针作为代理

PROPEL的核心思想是解耦生成器优化与求解器评估。具体来说，它首先在一个一次性标注的语料库上训练一个轻量级激活探针（activation probe）。该语料库由生成器生成的任务及其在目标求解器上的结果组成。探针从冻结的生成器参考模型中提取特征，并预测任务在目标求解器上的通过率。一旦探针训练完成，它就可以作为求解率的代理，在生成器优化过程中仅需一次前向传播即可评估任务质量，从而避免了昂贵的求解器调用。

实验结果：显著提升前沿任务比例

在数学、代码和软件工程等多种任务上，PROPEL均有效将生成分布向目标求解率偏移。例如：

代码任务：对于Qwen2.5-3B-Instruct求解器，可学习前沿任务占比从10.1%提升至20.0%；对于Qwen2.5-7B-Instruct求解器，从5.3%提升至12.6%。
软件工程任务：在未见过的仓库上，对于Qwen3.5-27B求解器，前沿任务占比从9.8%提升至19.6%。

这些结果表明，PROPEL能够在不牺牲效率的前提下，显著提升任务生成的“前沿性”。

意义与展望

PROPEL为RL中的任务生成瓶颈提供了一种实用解决方案。通过摊销求解器评估，它使得训练更强大的任务生成器成为可能，进而推动智能体在更复杂、更真实的环境中进行持续学习。未来工作可进一步探索探针的泛化能力，以及将其应用于多求解器场景。

打破求解瓶颈：在可学习前沿训练任务生成器

核心挑战：任务生成与求解器评估的权衡

PROPEL框架：轻量级探针作为代理

实验结果：显著提升前沿任务比例

意义与展望

延伸阅读

相关资讯