递归自进化智能体RSEA：通过留出选择实现安全提升

大语言模型（LLM）智能体正越来越多地通过演化自然语言构件（如反思、工作流、剧本、备忘单或优化提示）来提升性能，而无需更新模型权重。这类方法通常只在单个基准上报告成功。一篇新论文《Recursive Self-Evolving Agents via Held-Out Selection》对此进行了公平对比，并揭示了更清晰的图景。

核心方法：RSEA

研究者提出RSEA（递归自进化智能体），它维护一个紧凑的三层自然语言状态：策略（命令式）、技能（可重用）和剧本（程序化）。在每一代演化中，RSEA根据自身轨迹重写所有三层，并仅当候选版本在留出数据上不退化时才提交，采用严格的“保留更好”门控。

主要发现

论文在四个多样化基准（ALFWorld、GAIA、τ-bench、WebShop）上，与六个忠实基线（ReAct、Reflexion、GEPA、AWM、ACE、Dynamic Cheatsheet）进行对比，所有方法使用同一本地骨干模型，得出三个主要结论：

没有通用最优构件。RSEA在ALFWorld上是单次方法中最强的，达到69.3%（ReAct为64.6%，McNemar检验p=0.015），配合重试后达到79.4%，为整体最佳。然而，在强骨干工具使用任务上，AWM（具体工作流归纳）表现最佳。
无门控的上下文演化高风险且不安全。Dynamic Cheatsheet在线整理上下文但无留出门控，在ALFWorld上接近最佳（70.7%），但在WebShop上崩溃，得分0.14（ReAct为0.43）。
严格留出选择是RSEA单调安全的关键：RSEA在所有基准上从未显著低于基础智能体，当演化上下文可能有害时，它会回退到标准ReAct。

行业意义

这项研究揭示了LLM智能体自演化领域的关键挑战：性能提升的不可靠性和退化风险。RSEA通过留出验证提供了安全网，但同时也表明不同任务需要不同的演化策略。对于AI从业者，这意味着在部署自演化智能体时，必须引入严格的验证机制，而非盲目信任单一代际的改进。

论文还强调了公平比较的重要性：许多方法在单一基准上宣称成功，但跨任务评估后优势消失。未来，社区需要更系统的基准和验证协议，以确保智能体演化技术的可靠落地。

递归自进化智能体：通过留出选择实现安全提升

核心方法：RSEA

主要发现

行业意义

延伸阅读

相关资讯