OpenAI 推出 GPT‑5.5 生物漏洞赏金计划,悬赏 2.5 万美元寻找通用越狱方法
OpenAI 近日宣布启动一项针对 GPT‑5.5 的“生物漏洞赏金”(Bio Bug Bounty)计划,邀请具备 AI 红队、安全或生物安全经验的研究人员,尝试寻找一个能够绕过其五道生物安全问题的通用越狱提示。该计划旨在评估和强化前沿 AI 模型在生物学领域的防护能力,防止模型被恶意用于制造生物风险。
计划细节
- 目标模型:GPT‑5.5(仅限 Codex Desktop 版本)。
- 挑战内容:参与者需提供一个通用越狱提示,能够在一个全新对话中,不依赖任何内容过滤干预的情况下,成功回答全部五道生物安全题目。
- 奖金:首个成功实现完全越狱的团队或个人将获得 25,000 美元。此外,OpenAI 保留对部分成功者发放小额奖励的权利。
- 时间安排:申请从 2026 年 4 月 23 日 开始,采用滚动审核,截止日期为 2026 年 6 月 22 日。实际测试窗口为 4 月 28 日至 7 月 27 日。
- 参与方式:研究人员需提交简短申请(包括姓名、所属机构、相关经验),通过审核后需签署保密协议(NDA),所有提示、完成结果、发现和沟通均受保密约束。
行业背景与意义
此次赏金计划并非 OpenAI 首次涉足安全漏洞奖励,但专门针对“生物风险”设立独立项目尚属首次。随着 GPT‑5.5 等前沿模型的能力持续提升,它们在辅助科研、文档撰写甚至实验设计方面的潜力也引发了安全担忧。此前已有研究指出,大型语言模型可能被诱导提供危险病原体的合成方法或实验步骤。OpenAI 希望通过“众包红队”的方式,主动发现并封堵这类漏洞,而不是等到模型部署后产生实际危害。
与传统的安全漏洞赏金不同,“生物漏洞赏金”聚焦于通用越狱——即一个提示就能系统性地绕过所有安全护栏。这意味着参与者需要深入理解模型的安全机制与生物学知识,寻找两者之间的薄弱环节。这种挑战不仅考验技术能力,也要求参与者具备跨学科思维。
潜在影响与争议
该计划引发了社区的热议。支持者认为,这是负责任的 AI 开发举措,有助于在模型发布前就堵住最危险的漏洞。批评者则担心,公开征集越狱方法本身就存在风险——即使签署了 NDA,一旦方法泄露,可能被恶意使用。此外,2.5 万美元的奖金相对于所需投入的时间和专业知识是否足够,也受到质疑。
不过,从 OpenAI 的角度看,这一计划是其整体安全策略的一部分。该公司同期还运营着通用的安全漏洞赏金和网络安全漏洞赏金项目,此次生物专项的推出,标志着 AI 安全评估正在向更细分的领域延伸。
小结
GPT‑5.5 生物漏洞赏金计划代表了 AI 安全评估的一次重要尝试:通过外部专家的力量,在受控环境下挑战模型的生物安全防护极限。对于研究人员而言,这是一个既具挑战性又有实际影响力的机会;对于行业而言,它可能成为未来 AI 安全评估的新范式——即针对特定高风险领域设立专项测试,而非仅依赖通用红队。