精选今天0 投票
Partial Evidence Bench:衡量AI代理在权限受限环境中的“沉默过滤”风险
随着企业级AI代理越来越多地被部署在受限检索系统、委托工作流和策略约束的决策环境中,一个微妙而危险的问题浮出水面:系统可能正确执行了访问控制,却生成一个看似完整的答案,而关键证据实际上位于调用者的授权边界之外。这种“沉默过滤”(silent filtering)行为可能导致灾难性后果。为此,研究者Krti Tallam提出了 Partial Evidence Bench,一个确定性基准测试,旨在量化这种授权受限证据下的失败模式。
基准测试的核心设计
Partial Evidence Bench 包含三个场景家族——尽职调查、合规审计和安全事件响应,共72个任务。每个任务都配备了ACL分区语料库、完整答案、授权视图答案、完整性判断以及结构化缺口报告。系统在四个维度上接受评估:答案正确性、完整性感知、缺口报告质量以及不安全完整性行为。
关键发现与基线结果
基线测试结果令人警醒:在所有场景中,沉默过滤都表现出灾难性的不安全行为。相比之下,采用“明确失败并报告”策略的系统能够消除不安全完整性,而不会导致任务退化为简单的弃权。初步的真实模型运行显示,不同模型和场景在是否过度声称完整性、保守地低估完整性或以企业可用形式报告不完整性方面存在显著差异。
行业意义
这项工作的核心贡献在于:使一个治理关键的代理失败模式变得可测量,无需人工评判或易受污染的静态语料。对于正在将AI代理引入合规、审计和高风险决策的企业而言,Partial Evidence Bench 提供了一种工具来识别和缓解“看起来正确但实际遗漏关键证据”的风险。随着代理系统自主性增强,这种基准测试将成为AI治理和安全评估的重要基础设施。