Anthropic发布Claude Fable 5：公众可用的Mythos模型，安全护栏全面升级

Anthropic 于今日正式推出 Claude Fable 5，这是其 Mythos 系列模型的首个公开版本。该模型在软件工程、知识工作和视觉任务上表现卓越，但为防范高风险领域的滥用，Anthropic 为其设置了严格的安全限制——在网络安全、生物学、化学等敏感话题上，模型将拒绝回答并自动回退到 Claude Opus 4.8。

从封闭到开放：Mythos 的进化之路

今年 4 月，Anthropic 以“Mythos”为代号首次预览了这款前沿模型，当时仅向少数合作伙伴开放，主要顾虑是网络安全风险。上周，Anthropic 将访问范围扩大至 15 个国家的数百家关键基础设施组织。如今，Fable 5 作为 Mythos 技术的“降级”版本，通过 Claude API 和基于消耗量的企业计划向公众开放。订阅用户的访问将分阶段进行：6 月 22 日前，Pro、Max、Team 及基于座位的企业计划可免费使用；6 月 23 日后，Fable 5 将转为消耗积分使用，Anthropic 计划尽快将其恢复为标准订阅功能。

安全优先：内置“刹车”与数据留存

Fable 5 的安全机制经过严格测试。Anthropic 表示，在 1000 小时以上的外部赏金测试中，未发现任何通用越狱方法；与外部红队组织的合作也未能找到通用漏洞。但公司承认，新型攻击仍可能存在。为此，Anthropic 要求所有流量保留 30 天（即使企业此前签署了零保留协议），数据仅用于防御复杂攻击，不用于模型训练。

与此同时，Anthropic 还推出了面向已获批组织的 Mythos 5 升级版。

行业背景：AI 安全的“刹车”呼声

Fable 5 的发布正值 Anthropic 筹备上市之际（与 OpenAI、SpaceX 同列）。此前，Anthropic 曾呼吁全球主要 AI 实验室为前沿 AI 开发建立 协调一致的“刹车”机制，警告系统可能很快实现 递归自我改进（RSI），即在无人干预下自主进化。Fable 5 的推出正是这一安全理念的实践——在能力与风险之间寻找平衡点。

Anthropic 发布 Claude Fable 5：公众可用的 Mythos 级模型，但设有多重安全护栏

从封闭到开放：Mythos 的进化之路

安全优先：内置“刹车”与数据留存

行业背景：AI 安全的“刹车”呼声

延伸阅读

相关资讯