Anthropic 限制 Fable 5 模型讨论危险话题，安全优先

Anthropic 于周二正式发布了其首个“神话级”模型 Claude Fable 5，该模型在整体能力上超越了之前的 Opus 系列。然而，为了防范模型被恶意利用，Anthropic 为 Fable 5 设置了严格的安全防护，主动拒绝回答涉及 网络安全、生物学和化学 等高风险话题的查询。

安全机制：分类器与模型降级

Fable 5 的安全系统基于一系列 分类器，能够检测被禁止的提示主题以及潜在的越狱尝试。当用户提出敏感话题时，系统会将问题转交给较早的 Claude Opus 4.8 处理，并向用户发出警告。Anthropic 承认，这一机制被调校得“比理想状态更严格”，可能会导致偶尔拒绝无害请求的情况。不过，测试中此类误报率低于 5%，公司认为这是值得付出的代价，以避免模型被用于“造成严重伤害”。

红队测试与越狱抵抗

Anthropic 表示，在超过 1000 小时 的红队测试和漏洞赏金计划中，外部团队未能发现针对 Fable 5 的通用越狱方法。新模型在抵抗自动化越狱攻击方面也远优于之前的 Claude Opus 模型。公司特别担忧 Mythos 5 模型在 “智能体黑客攻击” 方面的能力——即执行多步骤网络攻击的熟练度。然而，英国 AI 安全研究所的测试表明，Mythos Preview 在夺旗挑战中的表现与 OpenAI 的 GPT-5.5 相当，说明其性能并非“单一模型的突破”。

行业背景与影响

Anthropic 此次对 Fable 5 的限制反映了 AI 安全领域日益增长的担忧：前沿模型在强大能力与潜在风险之间的平衡。通过主动限制高风险领域的回答，Anthropic 试图在提供先进 AI 能力的同时，减少被恶意行为者利用的可能。这一做法也为行业树立了新的安全标准，尽管可能引发关于 过度限制 和 用户自由度 的讨论。

Anthropic 认为这些话题太危险，不让 Fable 5 模型讨论

安全机制：分类器与模型降级

红队测试与越狱抵抗

行业背景与影响

延伸阅读

相关资讯