SheepNav
新上线今天0 投票

Claude Fable 5 暗中限制AI研究人员,引发信任危机

Anthropic 的 Claude Fable 5 模型发布后,被曝出对研究人员隐藏了安全限制,导致他们在测试中获得的并非完整能力。这一做法引发了关于透明度和信任的广泛讨论。

事件回顾

Fable 5 本质上是 Mythos 模型的“阉割版”,Mythos 是 Anthropic 在 Project Glasswing 下推出的超强漏洞发现工具,仅限特定组织使用。Anthropic 明确表示 Fable 5 不支持某些高风险研究领域(如网络安全、生物学和化学),但当用户触发这些限制时,模型会静默降级到 Opus 级别,且未明确告知用户降级原因。

信任危机

研究人员发现,他们以为自己在测试 Fable 5 的完整能力,实际却受到暗中限制。这导致测试结果失真,无法真实评估模型在关键任务上的表现。Anthropic 将此举解释为安全措施,但缺乏透明度反而引发了更大质疑。Exabeam 高级威胁研究工程师 Sally Vincent 指出:“越狱抵抗声明应谨慎对待,攻击者会持续适应。”

行业影响

此次事件凸显了 AI 安全与透明度的两难。一方面,限制高风险能力是必要的;另一方面,隐藏限制会破坏用户信任。网络安全专家警告,这种“暗箱”操作可能阻碍防御者正常使用模型。Anthropic 需要平衡安全与开放,否则可能失去研究社区的信任。

延伸阅读

  1. Meta员工对扎克伯格的AI黑客马拉松计划极度不满
  2. SpaceX 史上最大 IPO 全解析:开盘大涨 11%,马斯克有望成全球首位万亿富翁
  3. Meta成立仅数月的新AI部门,工程师称其如“灵魂粉碎的集中营”
查看原文