Anthropic Mythos 泄露：安全承诺的尴尬失败

Anthropic 精心控制的 Claude Mythos 发布计划遭遇了尴尬的转折。在数周坚称该 AI 模型在网络安全方面能力过强、以至于公开发布过于危险之后，这个模型最终还是落入了不该得到它的人手中。据 Bloomberg 报道，一个“小规模未经授权用户群”在 Anthropic 宣布计划将 Mythos 提供给少数公司进行测试的当天，就已经获得了访问权限。Anthropic 表示正在调查。

对于一家以严肃对待 AI 安全为品牌形象、并大肆宣传其最新模型网络安全能力的公司来说，这无疑是一次重击。从技术角度看，Mythos 泄露事件的手法简陋得令人难堪。Bloomberg 报道称，该组织通过“对模型在线位置进行有依据的猜测”获得了访问权限，他们利用了 Mercor（一家提供 AI 训练数据的公司）泄露事件中暴露的 Anthropic 其他模型信息，以及其中一名成员通过合同工作评估 Anthropic 模型时获得的知识。

这种通过内部知识和运气猜测的方式，并非什么高明的技术漏洞或模型整体窃取。安全漏洞不可避免，且泄露黑客所用信息的实际上是 Mercor 而非 Anthropic。英国智库 RUSI 的研究员 Pia Hüsch 告诉我，没有公司能完全安全，人类往往是最薄弱的环节，尽管“没有造成严重后果确实有点幸运”。

Anthropic 未能预见到一种‘完全可以想象’的失败

但这并非完全靠运气。这种有依据的猜测是非常标准的黑客技术，而 Mercor 泄露事件在 Mythos 发布前就已为人所知。安全研究员 Lukasz Olejnik 将其描述为一次“完全可以想象的”安全失败。

事件暴露了 Anthropic 在安全实践中的双重标准：一方面高调宣称模型能力太强而不能公开，另一方面却在部署和访问控制上存在明显疏忽。对于一家以安全为卖点的公司而言，这种言行不一可能比泄露本身更具破坏性。

目前，Anthropic 尚未披露未经授权用户是否获取了模型权重或造成了其他损害。但无论如何，这次事件已经给 AI 行业敲响了警钟：在模型能力快速提升的同时，基础的安全防护措施必须跟上，否则“安全”承诺将沦为笑柄。

Anthropic 的 Mythos 泄露事件：一场自扇耳光的尴尬

延伸阅读

相关资讯