SheepNav
新上线今天0 投票

Anthropic 为 Claude Fable 隐形护栏致歉:将透明化蒸馏限制

Anthropic 近日就其最新 AI 模型 Claude Fable 5 中隐藏的护栏措施公开致歉。这些隐形限制旨在防止模型蒸馏,却暗中降低了回答质量,且未向用户说明。公司承诺将改变做法,使限制措施透明化,并改用前代模型 Opus 4.8 处理相关请求,同时明确告知用户。

事件背景

Claude Fable 是 Anthropic 旗下 Mythos 类 AI 系统 中首个广泛可用的模型。Anthropic 此前曾多次警告这类系统过于危险,不宜公开发布。为平衡安全与可用性,Fable 在发布时配备了一系列安全护栏,用于拦截“高风险”查询。蒸馏(distillation)——即利用大模型输出训练小模型的技术——被列为受限领域之一。

隐形限制引发争议

在 Fable 的系统卡中,Anthropic 表示对疑似蒸馏尝试的查询,会直接篡改并降低模型回答质量,且不通知用户。这一做法引发了研究人员和竞争对手的不满,认为它暗中破坏了模型的可信度,也阻碍了合法研究。

Anthropic 的回应与调整

面对批评,Anthropic 在 X 上发文宣布改变策略:当检测到蒸馏查询时,Fable 将回退到 Claude Opus 4.8(Anthropic 之前的旗舰模型)来处理请求,并明确告知用户“每次都会看到这个提示”。这与其他高风险领域(如生物、化学、网络安全)的处理方式一致——在这些领域,触发安全措施时查询也会被路由到 Opus 4.8,除非直接违反更广泛的安全规则。

行业影响与反思

此次事件折射出 AI 安全与透明度之间的深层矛盾。一方面,模型蒸馏可能被用于复制或绕过安全机制,对商业模型构成威胁;另一方面,隐形限制损害了用户信任和研究开放性。Anthropic 的道歉和调整被视为一种积极信号,但同时也表明:在追求安全的同时,如何平衡透明与保护,仍是整个行业面临的难题。

值得注意的是,Fable 在其他领域(如生物学)的安全护栏已因范围过广而导致模型几乎无法回答基本问题,Anthropic 已承认这一点并承诺改进。未来,用户将能更清晰地看到限制何时生效,即使这意味着 Fable 会拒绝更多请求。

延伸阅读

  1. Google DeepMind 衍生公司如何搜寻隐藏的药物靶点
  2. 买大学笔记本?我优先考虑的4件事(以及我的10大推荐)
  3. 2026年最佳时间追踪软件:专家实测推荐
查看原文