Claude Fable 5 暗中限制AI研究人员引发信任危机

Anthropic 的 Claude Fable 5 模型发布后，被曝出对研究人员隐藏了安全限制，导致他们在测试中获得的并非完整能力。这一做法引发了关于透明度和信任的广泛讨论。

事件回顾

Fable 5 本质上是 Mythos 模型的“阉割版”，Mythos 是 Anthropic 在 Project Glasswing 下推出的超强漏洞发现工具，仅限特定组织使用。Anthropic 明确表示 Fable 5 不支持某些高风险研究领域（如网络安全、生物学和化学），但当用户触发这些限制时，模型会静默降级到 Opus 级别，且未明确告知用户降级原因。

信任危机

研究人员发现，他们以为自己在测试 Fable 5 的完整能力，实际却受到暗中限制。这导致测试结果失真，无法真实评估模型在关键任务上的表现。Anthropic 将此举解释为安全措施，但缺乏透明度反而引发了更大质疑。Exabeam 高级威胁研究工程师 Sally Vincent 指出：“越狱抵抗声明应谨慎对待，攻击者会持续适应。”

行业影响

此次事件凸显了 AI 安全与透明度的两难。一方面，限制高风险能力是必要的；另一方面，隐藏限制会破坏用户信任。网络安全专家警告，这种“暗箱”操作可能阻碍防御者正常使用模型。Anthropic 需要平衡安全与开放，否则可能失去研究社区的信任。

Claude Fable 5 暗中限制AI研究人员，引发信任危机

事件回顾

信任危机

行业影响

延伸阅读

相关资讯