SheepNav
APIEval-20

APIEval-20

producthunt.com

AI代理的API测试黑盒基准

14天前制作者:Abhishek Saikia

关于 APIEval-20

APIEval-20 是一个专为 API 测试代理设计的黑盒基准测试平台。每个代理仅能获取一个 JSON 模式和一个示例负载,然后需要生成完整的测试套件。这些测试将在包含预设缺陷的实时参考 API 上运行,并根据缺陷检测率、API 覆盖率和测试效率进行评分。与基于 LLM 作为裁判的评估不同,APIEval-20 的评分完全客观:缺陷要么被发现,要么未被发现。任务涵盖认证、错误处理、分页、模式验证和多步骤流程等场景。该基准已开源在 Hugging Face 上。

核心功能

APIEval-20 提供一套标准化的评估流程,用于衡量 AI 代理在 API 测试中的表现。代理接收 API 的 JSON 模式和示例负载,然后自动生成测试用例。系统通过运行这些测试用例来检测预设的缺陷,并计算代理的缺陷发现率、API 覆盖率和测试效率。

主要特性

  • 客观评分:完全基于实际测试结果,避免主观偏差
  • 多样化任务:涵盖认证、错误处理、分页、模式验证和多步骤流程
  • 实时参考 API:测试在真实 API 上运行,确保结果可靠性
  • 开源可复现:基准和代码在 Hugging Face 上公开,方便社区参与
  • 全面指标:同时评估缺陷检测、覆盖率和效率

适用场景

APIEval-20 适用于 AI 代理开发者、API 测试工具研究者以及希望评估其代理 API 测试能力的企业。它可以帮助改进代理的测试生成策略,提升 API 质量保障水平。

相关工具