Anthropic 发布 Claude Mythos 5 和 Fable 5：安全分级策略解析

Anthropic 于周二发布了两款新 AI 模型：Claude Mythos 5 和 Claude Fable 5。Mythos 5 仅面向受信任的组织（如 Project Glasswing 合作伙伴）提供，而 Fable 5 则向公众开放，并内置了严格的“护栏”以防止被用于网络攻击。

能力与限制

Mythos 5 是此前 Mythos Preview 的升级版，具备更强的漏洞发现等高级能力。出于安全考虑，Anthropic 此前仅向少数科技合作伙伴开放。Fable 5 基于相同的基础模型，但通过重定向机制屏蔽了网络安全、生物学和化学等敏感领域的查询，这些请求会被转至较旧的 Claude Opus 4.8 处理。此外，若检测到用户试图进行模型蒸馏（利用大模型输出训练小模型），相关请求同样会被拦截。

安全策略的演进

Anthropic 产品管理主管 Diane Penn 表示，自 Mythos Preview 发布以来，公司一直在权衡如何管控其能力。目前的方案偏向保守，可能导致部分良性查询也被降级处理，但这是当前广泛发布的最安全选择。未来，公司计划通过优化分类器提升精准度。

行业背景与意义

此举反映了 AI 安全领域的两难困境：如何平衡能力开放与风险控制。Anthropic 选择“分级发布”策略，既满足了合作伙伴对前沿能力的需求，又通过技术手段降低了公众版本被滥用的风险。这一模式可能成为 AI 模型分发的参考范例。

Anthropic 推出 Mythos 5 升级版：企业专属，公众版“安全”无忧

能力与限制

安全策略的演进

行业背景与意义

延伸阅读

相关资讯