Regimes:一种可审计、留出验证的自主改进循环——在LongMemEval上以ActiveGraph验证
自主改进循环(Autonomous Improvement Loops)让AI代理能够自我诊断并修复错误,但其信任问题一直悬而未决:修复过程常作为外部脚手架附加,失败日志缺失、诊断不可重放、决策记录散落在外。近期,一项来自arXiv的新研究提出了一种名为Regimes的框架,借助事件溯源(Event Sourcing)的运行时架构,将受控改进内化为代理的一等工作流,并首次在长上下文记忆基准LongMemEval上展示了其有效性。
核心问题:为什么自主改进难以信任?
当前大多数自主改进系统在代理外部构建“修补管道”——失败诊断、补丁生成、效果验证等环节与代理自身历史割裂。一旦改进失败,无法追溯原始状态;诊断逻辑无法精确重放;决策(如是否采纳补丁)仅存入侧数据库,而非代理的日志。这种“外挂”模式使得审计和复现变得困难,阻碍了其在关键场景的落地。
Regimes:事件溯源驱动的可审计改进循环
Regimes运行在ActiveGraph运行时之上,其核心思想是:将代理状态视为一个仅追加事件日志的确定性投影。这意味着:
- 失败即事件:每一次失败都被记录为日志中的事件;
- 重放即日志:任何运行可精确从日志重放;
- 补丁有边界:候选补丁仅作用于管道中特定的类型化接缝(typed pipeline seams),避免全局污染;
- 门控可审计:每次提升或丢弃决策本身也是一个事件,可被审计。
改进循环的具体流程包括:诊断失败评估、在管道接缝处生成修复、并通过静态检查、沙箱执行、样本内评估和留出验证四道关卡后才正式提升。值得注意的是,该循环是目标无关的——同一控制流通过统一接口可适配不同任务。
实验发现:长上下文记忆中的“调和失败”
在LongMemEval-S子集上,研究团队发现:主导失败模式并非检索不足,而是调和失败——证据已存在于上下文中,但阅读器仍给出错误答案。这揭示了当前长上下文模型在“证据整合”环节的瓶颈。
在5个留出分片上,Regimes通过修复阅读器提示,将最终留出准确率提升了**+0.05至+0.10**(其中一个分片提升+0.01);其中两个分片在统计上显著(种子5未调整顺序提升结构)。不过,由于分片共享500道题目的同一池,汇总计数仅具描述性。
贡献与开放问题
论文的耐久贡献包括:
- ActiveGraph作为可审计基底,使受控改进循环变得可操作;
- 留出门控循环的设计范式;
- 失败机制分类法,将每个失败路由到管道特定位置(其边际价值相对于无路由基线是主要开放问题);
- 提示即探测假设(prompt-as-discovery-probe),将提示本身作为发现工具。
未来方向包括:探索路由分类法的实际增益、将循环扩展到更多任务类型,以及进一步降低留出验证的计算成本。