SheepNav
Anthropic 认为这些话题太危险,不让 Fable 5 模型讨论
新上线今天0 投票

Anthropic 认为这些话题太危险,不让 Fable 5 模型讨论

Anthropic 于周二正式发布了其首个“神话级”模型 Claude Fable 5,该模型在整体能力上超越了之前的 Opus 系列。然而,为了防范模型被恶意利用,Anthropic 为 Fable 5 设置了严格的安全防护,主动拒绝回答涉及 网络安全、生物学和化学 等高风险话题的查询。

安全机制:分类器与模型降级

Fable 5 的安全系统基于一系列 分类器,能够检测被禁止的提示主题以及潜在的越狱尝试。当用户提出敏感话题时,系统会将问题转交给较早的 Claude Opus 4.8 处理,并向用户发出警告。Anthropic 承认,这一机制被调校得“比理想状态更严格”,可能会导致偶尔拒绝无害请求的情况。不过,测试中此类误报率低于 5%,公司认为这是值得付出的代价,以避免模型被用于“造成严重伤害”。

红队测试与越狱抵抗

Anthropic 表示,在超过 1000 小时 的红队测试和漏洞赏金计划中,外部团队未能发现针对 Fable 5 的通用越狱方法。新模型在抵抗自动化越狱攻击方面也远优于之前的 Claude Opus 模型。公司特别担忧 Mythos 5 模型在 “智能体黑客攻击” 方面的能力——即执行多步骤网络攻击的熟练度。然而,英国 AI 安全研究所的测试表明,Mythos Preview 在夺旗挑战中的表现与 OpenAI 的 GPT-5.5 相当,说明其性能并非“单一模型的突破”。

行业背景与影响

Anthropic 此次对 Fable 5 的限制反映了 AI 安全领域日益增长的担忧:前沿模型在强大能力与潜在风险之间的平衡。通过主动限制高风险领域的回答,Anthropic 试图在提供先进 AI 能力的同时,减少被恶意行为者利用的可能。这一做法也为行业树立了新的安全标准,尽管可能引发关于 过度限制用户自由度 的讨论。

延伸阅读

  1. 我试了试 Siri AI,到目前为止它真的能用了
  2. 没有传统VC基金,贾斯汀·欧内斯特如何向Anthropic、SpaceX等热门前沿公司投入近4亿美元
  3. 通用汽车:电动车电池可缓解AI数据中心的能源饥渴
查看原文