AgentShield

producthunt.com

AI代理的提示注入检测API

2个月前制作者：AgentShield

关于 AgentShield

AgentShield 是一款专为 AI 代理设计的提示注入分类器，充当不可信输入与 AI 代理之间的安全屏障。只需一次 API 调用，即可对任何文本（用户消息、RAG 文档、工具输出等）进行分类，并在其到达模型之前返回判定结果。可以将其视为 LLM 的 WAF（Web 应用防火墙）。

核心功能

实时检测：毫秒级响应，在提示注入到达 AI 模型前将其拦截。
全面覆盖：支持用户消息、RAG 文档、工具输出等多种输入源。
高精度分类：基于先进的机器学习模型，准确识别恶意提示。
易于集成：提供简洁的 REST API，轻松嵌入现有 AI 工作流。

主要特性

零信任架构：不信任任何外部输入，每次调用独立检测。
低误报率：精心调优的模型，减少对正常请求的误拦截。
可定制阈值：根据业务需求调整敏感度，平衡安全与可用性。
持续更新：团队紧跟最新攻击手法，定期更新检测规则。

适用场景

AI 代理安全：保护 Claude Code、Gemini CLI、GitHub Copilot 等 AI 代理免受提示注入攻击。
RAG 系统防护：过滤检索文档中的恶意内容，防止污染模型输出。
工具调用安全：确保 AI 代理调用的外部工具输入不被篡改。

AgentShield 由约翰霍普金斯大学研究人员发现三大 AI 公司无法阻止提示注入攻击后开发，旨在为 AI 系统提供独立的外部安全层。

所属分类

人工智能开发者工具安全 GitHub

相关工具

Brila

用真实谷歌地图评论生成单页网站

Fundraisly

AI融资代理，精准匹配投资人并安排会议

ClawTeams

首个目标驱动的主动式电商AI团队

Pazi

用AI团队落地你的商业想法

Brew

专为邮件营销设计的Claude

Osaurus

在Mac上本地运行的开源AI代理