SheepNav
新上线今天0 投票

Anthropic 发布 Claude Fable 5:公众可用的 Mythos 级模型,但设有多重安全护栏

Anthropic 于今日正式推出 Claude Fable 5,这是其 Mythos 系列模型的首个公开版本。该模型在软件工程、知识工作和视觉任务上表现卓越,但为防范高风险领域的滥用,Anthropic 为其设置了严格的安全限制——在网络安全、生物学、化学等敏感话题上,模型将拒绝回答并自动回退到 Claude Opus 4.8

从封闭到开放:Mythos 的进化之路

今年 4 月,Anthropic 以“Mythos”为代号首次预览了这款前沿模型,当时仅向少数合作伙伴开放,主要顾虑是网络安全风险。上周,Anthropic 将访问范围扩大至 15 个国家的数百家关键基础设施组织。如今,Fable 5 作为 Mythos 技术的“降级”版本,通过 Claude API 和基于消耗量的企业计划向公众开放。订阅用户的访问将分阶段进行:6 月 22 日前,Pro、Max、Team 及基于座位的企业计划可免费使用;6 月 23 日后,Fable 5 将转为消耗积分使用,Anthropic 计划尽快将其恢复为标准订阅功能。

安全优先:内置“刹车”与数据留存

Fable 5 的安全机制经过严格测试。Anthropic 表示,在 1000 小时以上的外部赏金测试中,未发现任何通用越狱方法;与外部红队组织的合作也未能找到通用漏洞。但公司承认,新型攻击仍可能存在。为此,Anthropic 要求所有流量保留 30 天(即使企业此前签署了零保留协议),数据仅用于防御复杂攻击,不用于模型训练。

与此同时,Anthropic 还推出了面向已获批组织的 Mythos 5 升级版。

行业背景:AI 安全的“刹车”呼声

Fable 5 的发布正值 Anthropic 筹备上市之际(与 OpenAI、SpaceX 同列)。此前,Anthropic 曾呼吁全球主要 AI 实验室为前沿 AI 开发建立 协调一致的“刹车”机制,警告系统可能很快实现 递归自我改进(RSI),即在无人干预下自主进化。Fable 5 的推出正是这一安全理念的实践——在能力与风险之间寻找平衡点。

延伸阅读

  1. 大模型对齐算法的“黑箱”被打开:六种偏好优化方法的内部机制解析
  2. SynIB:多模态学习中最大化协同信息的信息瓶颈方法
  3. 不确定性感知的多保真度闭合建模:条件归一化流提升降阶模型精度
查看原文