SheepNav
精选今天0 投票

Regimes:一种可审计、留出验证的自主改进循环——在LongMemEval上以ActiveGraph验证

自主改进循环(Autonomous Improvement Loops)让AI代理能够自我诊断并修复错误,但其信任问题一直悬而未决:修复过程常作为外部脚手架附加,失败日志缺失、诊断不可重放、决策记录散落在外。近期,一项来自arXiv的新研究提出了一种名为Regimes的框架,借助事件溯源(Event Sourcing)的运行时架构,将受控改进内化为代理的一等工作流,并首次在长上下文记忆基准LongMemEval上展示了其有效性。

核心问题:为什么自主改进难以信任?

当前大多数自主改进系统在代理外部构建“修补管道”——失败诊断、补丁生成、效果验证等环节与代理自身历史割裂。一旦改进失败,无法追溯原始状态;诊断逻辑无法精确重放;决策(如是否采纳补丁)仅存入侧数据库,而非代理的日志。这种“外挂”模式使得审计和复现变得困难,阻碍了其在关键场景的落地。

Regimes:事件溯源驱动的可审计改进循环

Regimes运行在ActiveGraph运行时之上,其核心思想是:将代理状态视为一个仅追加事件日志的确定性投影。这意味着:

  • 失败即事件:每一次失败都被记录为日志中的事件;
  • 重放即日志:任何运行可精确从日志重放;
  • 补丁有边界:候选补丁仅作用于管道中特定的类型化接缝(typed pipeline seams),避免全局污染;
  • 门控可审计:每次提升或丢弃决策本身也是一个事件,可被审计。

改进循环的具体流程包括:诊断失败评估、在管道接缝处生成修复、并通过静态检查、沙箱执行、样本内评估和留出验证四道关卡后才正式提升。值得注意的是,该循环是目标无关的——同一控制流通过统一接口可适配不同任务。

实验发现:长上下文记忆中的“调和失败”

在LongMemEval-S子集上,研究团队发现:主导失败模式并非检索不足,而是调和失败——证据已存在于上下文中,但阅读器仍给出错误答案。这揭示了当前长上下文模型在“证据整合”环节的瓶颈。

在5个留出分片上,Regimes通过修复阅读器提示,将最终留出准确率提升了**+0.05至+0.10**(其中一个分片提升+0.01);其中两个分片在统计上显著(种子5未调整顺序提升结构)。不过,由于分片共享500道题目的同一池,汇总计数仅具描述性。

贡献与开放问题

论文的耐久贡献包括:

  1. ActiveGraph作为可审计基底,使受控改进循环变得可操作;
  2. 留出门控循环的设计范式;
  3. 失败机制分类法,将每个失败路由到管道特定位置(其边际价值相对于无路由基线是主要开放问题);
  4. 提示即探测假设(prompt-as-discovery-probe),将提示本身作为发现工具。

未来方向包括:探索路由分类法的实际增益、将循环扩展到更多任务类型,以及进一步降低留出验证的计算成本。

延伸阅读

  1. AI辅助优化下的探索响应性与适应性僵化
  2. 更少上下文,更优智能体:面向长周期工具调用 LLM 的高效上下文工程
  3. 最小化遗传编程:从进化到句法推导的范式转变
查看原文