APIEval-20 是什么？

APIEval-20是AI代理的API测试黑盒基准。

APIEval-20 是免费的吗？

APIEval-20 提供免费试用或免费模式，可以在其官网了解详细计划与定价。

APIEval-20：AI代理API测试黑盒基准 | 客观评分

APIEval-20 是一个专为 API 测试代理设计的黑盒基准测试平台。每个代理仅能获取一个 JSON 模式和一个示例负载，然后需要生成完整的测试套件。这些测试将在包含预设缺陷的实时参考 API 上运行，并根据缺陷检测率、API 覆盖率和测试效率进行评分。与基于 LLM 作为裁判的评估不同，APIEval-20 的评分完全客观：缺陷要么被发现，要么未被发现。任务涵盖认证、错误处理、分页、模式验证和多步骤流程等场景。该基准已开源在 Hugging Face 上。

核心功能

APIEval-20 提供一套标准化的评估流程，用于衡量 AI 代理在 API 测试中的表现。代理接收 API 的 JSON 模式和示例负载，然后自动生成测试用例。系统通过运行这些测试用例来检测预设的缺陷，并计算代理的缺陷发现率、API 覆盖率和测试效率。

主要特性

客观评分：完全基于实际测试结果，避免主观偏差
多样化任务：涵盖认证、错误处理、分页、模式验证和多步骤流程
实时参考 API：测试在真实 API 上运行，确保结果可靠性
开源可复现：基准和代码在 Hugging Face 上公开，方便社区参与
全面指标：同时评估缺陷检测、覆盖率和效率

适用场景

APIEval-20 适用于 AI 代理开发者、API 测试工具研究者以及希望评估其代理 API 测试能力的企业。它可以帮助改进代理的测试生成策略，提升 API 质量保障水平。

APIEval-20

关于 APIEval-20

核心功能

主要特性

适用场景

所属分类

相关工具