SheepNav
精选今天0 投票

Anchor:破解AI智能体基准生成中的“工件漂移”难题

AI智能体正逐步在复杂的、长周期的企业运营任务中展现价值,但为这些任务构建训练与评估环境始终面临一个“不可能三角”:真实性、可验证性与规模化难以兼得。来自学术界的最新研究指出了这一困境的核心症结——工件漂移(Artifact Drift),并提出了一套名为 Anchor 的解决方案。

什么是“工件漂移”?

在传统的基准生成流程中,任务指令、运行环境、评分标准(Oracle)和验证器往往由松散耦合的不同流程分别创建。这导致一个常见但隐蔽的失败模式:这些“工件”之间对任务要求理解不一致。例如,指令要求“采购A零件”,但环境配置中可能缺少该零件库存,或者评分标准只检查了采购订单数量而非零件型号,最终产生无法完成、可被奖励黑客利用或前后矛盾的测试环境。这种不一致性就是“工件漂移”。

Anchor:从源头对齐的生成管线

为了消除漂移,研究者提出了 Anchor 这一任务生成管线。其核心思路是将领域专家对业务工作流的规范描述形式化为约束优化程序。从单一的参数化规范出发,管线能够联合生成以下所有要素:

  • 自然语言指令(智能体需要理解的任务描述)
  • 环境配置(智能体运行所需的初始状态)
  • 经求解器认证的正确答案(确保存在且唯一的最优解)
  • 基于状态的验证器(只根据最终业务状态判断对错,而非过程)

通过修改生成参数,可以轻松创建难度可控、最优解已知的新任务。由于验证器只关注“最终业务状态是否正确”,生成的基准环境天然具有奖励抗操纵性,且与具体框架无关。

ERP-Bench:300个长周期任务的实战检验

研究团队将 Anchor 应用于一个生产级ERP系统,生成了名为 ERP-Bench 的基准测试集,包含300个覆盖采购与制造流程的长周期任务。实验发现:

  • 生成参数能够可靠地预测任务的实际难度。
  • 前沿模型(Frontier Models)在 26.1% 的试验中满足了显式任务约束,但仅有 17.4% 的试验达到了完全最优解。

这一结果表明,当前最强AI在处理需要精确状态匹配的企业级任务时,仍有显著差距。而Anchor提供的可审计、可复现的生成流程,为衡量和提升这种能力提供了坚实基础。

意义与展望

Anchor 和 ERP-Bench 的价值不仅在于一个具体的基准,更在于提出了一种构建可审计评估环境的具体方法论。对于希望将AI智能体部署到财务、供应链、制造等严肃商业场景的企业而言,拥有一个能确保“环境不撒谎”的测试平台至关重要。该工作已被 RLEval 2026 研讨会(ACM AI与智能体系统会议)接收,代码与数据集也已开源。

未来,随着智能体承担的经济价值越来越高,像 Anchor 这样从生成源头保证一致性的技术,将成为AI安全和可信评估中不可或缺的一环。

延伸阅读

  1. 从3D形状到可建造砖块结构:BrickAnything 用结构感知分词技术革新生成方式
  2. LLM 能内省吗?一项现实检验
  3. 智能体记忆是数据库吗?重新思考长期AI记忆的数据基础
查看原文