SheepNav
新上线今天0 投票

Anthropic 的 Mythos 模型进化速度超预期,AI 安全机构报告新突破

仅仅发布一个月后,Anthropic 备受争议的 Claude Mythos 模型已在测试中展现出显著的新能力,引发业界对其快速进化的关注。

英国 AI 安全研究所(AISI)在最新博客中披露,他们测试了 Mythos 的一个较新版本(Mythos Preview),结果令人震惊:该模型在两项网络安全测试中均取得突破,成为首个完成“冷却塔”挑战的 AI 模型。具体而言,Mythos Preview 在 10 次尝试中成功解决“最后的防线”6 次,并首次攻克此前无模型能解的“冷却塔”挑战(3/10 成功率)。这一成绩不仅超越了其自身早期版本,也优于 OpenAI 的 GPT-5.5。

Anthropic 上个月发布 Mythos Preview 时曾强调该模型“过于强大”而无法公开发布,并联合苹果、谷歌、微软等公司成立了“Project Glasswing”网络安全测试联盟,仅限合作伙伴使用。AISI 的独立测试验证了 Mythos 能力的真实跃升,既非单纯营销炒作,也未如部分担忧那般预示灾难性转变。

更值得关注的是,能力改进并非仅随模型代际更迭发生,而是在同一模型版本内部快速演进。AISI 指出,Mythos 在一个月内的进步表明 AI 能力的提升速度可能远超预期。这一现象对 AI 安全治理提出了新挑战:如何在模型内部快速迭代时有效评估风险并制定相应管控措施?

随着 Mythos 持续进化,关于“能力边界”与“安全护栏”的讨论将更加激烈。AISI 表示将继续监测其发展,为政策制定提供依据。

延伸阅读

  1. 当AI开始自己“造”自己:Richard Socher的6.5亿美元新赌注
  2. Meta智能眼镜最高直降20%:Ray-Ban与Oakley联名款父亲节特惠
  3. 能源供应商为服务数据中心,抛弃太浩湖居民
查看原文