OpenAI 安全漏洞赏金计划：应对AI滥用与代理风险

随着人工智能技术的飞速发展，其潜在滥用风险也日益凸显。2026年3月25日，OpenAI 正式推出 安全漏洞赏金计划，旨在识别其产品中的 AI 滥用和安全风险，以防范可能导致实际危害的误用或滥用行为。

计划定位：安全与安全的双重保障

OpenAI 此前已设有 安全漏洞赏金计划，主要关注传统意义上的安全漏洞。而新推出的 安全漏洞赏金计划 则专注于那些可能不构成传统安全漏洞，但仍会带来实质性滥用和安全风险的场景。两者将形成互补，共同构建更全面的防护体系。

核心关注领域：AI 特有的安全场景

该计划明确列出了几类重点关注的 AI 特定安全场景：

代理风险：包括 MCP 第三方提示注入和数据窃取。即攻击者通过文本可靠地劫持受害者的代理（如 Browser、ChatGPT Agent 等类似代理产品），诱使其执行有害操作或泄露用户敏感信息。报告需证明该行为至少可复现 50% 的时间。
代理产品大规模执行禁止操作：指代理类 OpenAI 产品在 OpenAI 网站上大规模执行不被允许的操作。
代理产品执行其他潜在有害操作：报告需说明其可能造成的合理且重大的危害。
OpenAI 专有信息泄露：包括模型生成内容中返回与推理相关的专有信息，以及其他可能暴露 OpenAI 专有信息的漏洞。
账户与平台完整性：涉及绕过反自动化控制、操纵账户信任信号、规避账户限制/暂停/封禁等漏洞。

值得注意的是，如果问题涉及用户越权访问功能、数据或权限，则应报告至 安全漏洞赏金计划。

运作机制与目标

提交的报告将由 OpenAI 的安全与安全漏洞赏金团队进行初步分类和评估，并根据问题的范围和归属，在两个计划之间进行流转。OpenAI 表示，期待继续与全球的安全和安防研究人员合作，共同识别和解决那些超出常规安全漏洞范畴但依然构成真实风险的问题。

行业背景与意义

在 AI 模型能力快速迭代、应用场景不断拓展的当下，如何确保其不被恶意利用已成为行业核心议题。从提示注入到代理劫持，新型攻击手段层出不穷。OpenAI 此举不仅是对自身产品安全性的主动加固，也为整个行业树立了标杆——将 “安全” 与 “安全” 并重，通过开放协作的社区力量，系统性应对 AI 技术演进伴生的新型风险。这标志着 AI 治理从被动防御向主动、精细化风险管理迈出了重要一步。

OpenAI 推出安全漏洞赏金计划，聚焦 AI 滥用与安全风险

计划定位：安全与安全的双重保障

核心关注领域：AI 特有的安全场景

运作机制与目标

行业背景与意义

延伸阅读

相关资讯