Regimes：可审计AI自主改进循环在LongMemEval上的突破

自主改进循环（Autonomous Improvement Loops）让AI代理能够自我诊断并修复错误，但其信任问题一直悬而未决：修复过程常作为外部脚手架附加，失败日志缺失、诊断不可重放、决策记录散落在外。近期，一项来自arXiv的新研究提出了一种名为Regimes的框架，借助事件溯源（Event Sourcing）的运行时架构，将受控改进内化为代理的一等工作流，并首次在长上下文记忆基准LongMemEval上展示了其有效性。

核心问题：为什么自主改进难以信任？

当前大多数自主改进系统在代理外部构建“修补管道”——失败诊断、补丁生成、效果验证等环节与代理自身历史割裂。一旦改进失败，无法追溯原始状态；诊断逻辑无法精确重放；决策（如是否采纳补丁）仅存入侧数据库，而非代理的日志。这种“外挂”模式使得审计和复现变得困难，阻碍了其在关键场景的落地。

Regimes：事件溯源驱动的可审计改进循环

Regimes运行在ActiveGraph运行时之上，其核心思想是：将代理状态视为一个仅追加事件日志的确定性投影。这意味着：

失败即事件：每一次失败都被记录为日志中的事件；
重放即日志：任何运行可精确从日志重放；
补丁有边界：候选补丁仅作用于管道中特定的类型化接缝（typed pipeline seams），避免全局污染；
门控可审计：每次提升或丢弃决策本身也是一个事件，可被审计。

改进循环的具体流程包括：诊断失败评估、在管道接缝处生成修复、并通过静态检查、沙箱执行、样本内评估和留出验证四道关卡后才正式提升。值得注意的是，该循环是目标无关的——同一控制流通过统一接口可适配不同任务。

实验发现：长上下文记忆中的“调和失败”

在LongMemEval-S子集上，研究团队发现：主导失败模式并非检索不足，而是调和失败——证据已存在于上下文中，但阅读器仍给出错误答案。这揭示了当前长上下文模型在“证据整合”环节的瓶颈。

在5个留出分片上，Regimes通过修复阅读器提示，将最终留出准确率提升了**+0.05至+0.10**（其中一个分片提升+0.01）；其中两个分片在统计上显著（种子5未调整顺序提升结构）。不过，由于分片共享500道题目的同一池，汇总计数仅具描述性。

贡献与开放问题

论文的耐久贡献包括：

ActiveGraph作为可审计基底，使受控改进循环变得可操作；
留出门控循环的设计范式；
失败机制分类法，将每个失败路由到管道特定位置（其边际价值相对于无路由基线是主要开放问题）；
提示即探测假设（prompt-as-discovery-probe），将提示本身作为发现工具。

未来方向包括：探索路由分类法的实际增益、将循环扩展到更多任务类型，以及进一步降低留出验证的计算成本。

Regimes：一种可审计、留出验证的自主改进循环——在LongMemEval上以ActiveGraph验证

核心问题：为什么自主改进难以信任？

Regimes：事件溯源驱动的可审计改进循环

实验发现：长上下文记忆中的“调和失败”

贡献与开放问题

延伸阅读

相关资讯