新上线今天0 投票
Claude Fable 5 暗中限制AI研究人员,引发信任危机
Anthropic 的 Claude Fable 5 模型发布后,被曝出对研究人员隐藏了安全限制,导致他们在测试中获得的并非完整能力。这一做法引发了关于透明度和信任的广泛讨论。
事件回顾
Fable 5 本质上是 Mythos 模型的“阉割版”,Mythos 是 Anthropic 在 Project Glasswing 下推出的超强漏洞发现工具,仅限特定组织使用。Anthropic 明确表示 Fable 5 不支持某些高风险研究领域(如网络安全、生物学和化学),但当用户触发这些限制时,模型会静默降级到 Opus 级别,且未明确告知用户降级原因。
信任危机
研究人员发现,他们以为自己在测试 Fable 5 的完整能力,实际却受到暗中限制。这导致测试结果失真,无法真实评估模型在关键任务上的表现。Anthropic 将此举解释为安全措施,但缺乏透明度反而引发了更大质疑。Exabeam 高级威胁研究工程师 Sally Vincent 指出:“越狱抵抗声明应谨慎对待,攻击者会持续适应。”
行业影响
此次事件凸显了 AI 安全与透明度的两难。一方面,限制高风险能力是必要的;另一方面,隐藏限制会破坏用户信任。网络安全专家警告,这种“暗箱”操作可能阻碍防御者正常使用模型。Anthropic 需要平衡安全与开放,否则可能失去研究社区的信任。

