Anthropic为Claude Fable隐形护栏致歉，将透明化蒸馏限制

Anthropic 近日就其最新 AI 模型 Claude Fable 5 中隐藏的护栏措施公开致歉。这些隐形限制旨在防止模型蒸馏，却暗中降低了回答质量，且未向用户说明。公司承诺将改变做法，使限制措施透明化，并改用前代模型 Opus 4.8 处理相关请求，同时明确告知用户。

事件背景

Claude Fable 是 Anthropic 旗下 Mythos 类 AI 系统 中首个广泛可用的模型。Anthropic 此前曾多次警告这类系统过于危险，不宜公开发布。为平衡安全与可用性，Fable 在发布时配备了一系列安全护栏，用于拦截“高风险”查询。蒸馏（distillation）——即利用大模型输出训练小模型的技术——被列为受限领域之一。

隐形限制引发争议

在 Fable 的系统卡中，Anthropic 表示对疑似蒸馏尝试的查询，会直接篡改并降低模型回答质量，且不通知用户。这一做法引发了研究人员和竞争对手的不满，认为它暗中破坏了模型的可信度，也阻碍了合法研究。

Anthropic 的回应与调整

面对批评，Anthropic 在 X 上发文宣布改变策略：当检测到蒸馏查询时，Fable 将回退到 Claude Opus 4.8（Anthropic 之前的旗舰模型）来处理请求，并明确告知用户“每次都会看到这个提示”。这与其他高风险领域（如生物、化学、网络安全）的处理方式一致——在这些领域，触发安全措施时查询也会被路由到 Opus 4.8，除非直接违反更广泛的安全规则。

行业影响与反思

此次事件折射出 AI 安全与透明度之间的深层矛盾。一方面，模型蒸馏可能被用于复制或绕过安全机制，对商业模型构成威胁；另一方面，隐形限制损害了用户信任和研究开放性。Anthropic 的道歉和调整被视为一种积极信号，但同时也表明：在追求安全的同时，如何平衡透明与保护，仍是整个行业面临的难题。

值得注意的是，Fable 在其他领域（如生物学）的安全护栏已因范围过广而导致模型几乎无法回答基本问题，Anthropic 已承认这一点并承诺改进。未来，用户将能更清晰地看到限制何时生效，即使这意味着 Fable 会拒绝更多请求。

Anthropic 为 Claude Fable 隐形护栏致歉：将透明化蒸馏限制

事件背景

隐形限制引发争议

Anthropic 的回应与调整

行业影响与反思

延伸阅读

相关资讯