Anthropic 的 Mythos 泄露事件:一场自扇耳光的尴尬
Anthropic 精心控制的 Claude Mythos 发布计划遭遇了尴尬的转折。在数周坚称该 AI 模型在网络安全方面能力过强、以至于公开发布过于危险之后,这个模型最终还是落入了不该得到它的人手中。据 Bloomberg 报道,一个“小规模未经授权用户群”在 Anthropic 宣布计划将 Mythos 提供给少数公司进行测试的当天,就已经获得了访问权限。Anthropic 表示正在调查。
对于一家以严肃对待 AI 安全为品牌形象、并大肆宣传其最新模型网络安全能力的公司来说,这无疑是一次重击。从技术角度看,Mythos 泄露事件的手法简陋得令人难堪。Bloomberg 报道称,该组织通过“对模型在线位置进行有依据的猜测”获得了访问权限,他们利用了 Mercor(一家提供 AI 训练数据的公司)泄露事件中暴露的 Anthropic 其他模型信息,以及其中一名成员通过合同工作评估 Anthropic 模型时获得的知识。
这种通过内部知识和运气猜测的方式,并非什么高明的技术漏洞或模型整体窃取。安全漏洞不可避免,且泄露黑客所用信息的实际上是 Mercor 而非 Anthropic。英国智库 RUSI 的研究员 Pia Hüsch 告诉我,没有公司能完全安全,人类往往是最薄弱的环节,尽管“没有造成严重后果确实有点幸运”。
Anthropic 未能预见到一种‘完全可以想象’的失败
但这并非完全靠运气。这种有依据的猜测是非常标准的黑客技术,而 Mercor 泄露事件在 Mythos 发布前就已为人所知。安全研究员 Lukasz Olejnik 将其描述为一次“完全可以想象的”安全失败。
事件暴露了 Anthropic 在安全实践中的双重标准:一方面高调宣称模型能力太强而不能公开,另一方面却在部署和访问控制上存在明显疏忽。对于一家以安全为卖点的公司而言,这种言行不一可能比泄露本身更具破坏性。
目前,Anthropic 尚未披露未经授权用户是否获取了模型权重或造成了其他损害。但无论如何,这次事件已经给 AI 行业敲响了警钟:在模型能力快速提升的同时,基础的安全防护措施必须跟上,否则“安全”承诺将沦为笑柄。
