Anthropic Mythos模型进化速度超预期：一个月内能力显著提升

仅仅发布一个月后，Anthropic 备受争议的 Claude Mythos 模型已在测试中展现出显著的新能力，引发业界对其快速进化的关注。

英国 AI 安全研究所（AISI）在最新博客中披露，他们测试了 Mythos 的一个较新版本（Mythos Preview），结果令人震惊：该模型在两项网络安全测试中均取得突破，成为首个完成“冷却塔”挑战的 AI 模型。具体而言，Mythos Preview 在 10 次尝试中成功解决“最后的防线”6 次，并首次攻克此前无模型能解的“冷却塔”挑战（3/10 成功率）。这一成绩不仅超越了其自身早期版本，也优于 OpenAI 的 GPT-5.5。

Anthropic 上个月发布 Mythos Preview 时曾强调该模型“过于强大”而无法公开发布，并联合苹果、谷歌、微软等公司成立了“Project Glasswing”网络安全测试联盟，仅限合作伙伴使用。AISI 的独立测试验证了 Mythos 能力的真实跃升，既非单纯营销炒作，也未如部分担忧那般预示灾难性转变。

更值得关注的是，能力改进并非仅随模型代际更迭发生，而是在同一模型版本内部快速演进。AISI 指出，Mythos 在一个月内的进步表明 AI 能力的提升速度可能远超预期。这一现象对 AI 安全治理提出了新挑战：如何在模型内部快速迭代时有效评估风险并制定相应管控措施？

随着 Mythos 持续进化，关于“能力边界”与“安全护栏”的讨论将更加激烈。AISI 表示将继续监测其发展，为政策制定提供依据。

Anthropic 的 Mythos 模型进化速度超预期，AI 安全机构报告新突破

延伸阅读

相关资讯