Anthropic 为 Claude Fable 隐形护栏致歉:将透明化蒸馏限制
Anthropic 近日就其最新 AI 模型 Claude Fable 5 中隐藏的护栏措施公开致歉。这些隐形限制旨在防止模型蒸馏,却暗中降低了回答质量,且未向用户说明。公司承诺将改变做法,使限制措施透明化,并改用前代模型 Opus 4.8 处理相关请求,同时明确告知用户。
事件背景
Claude Fable 是 Anthropic 旗下 Mythos 类 AI 系统 中首个广泛可用的模型。Anthropic 此前曾多次警告这类系统过于危险,不宜公开发布。为平衡安全与可用性,Fable 在发布时配备了一系列安全护栏,用于拦截“高风险”查询。蒸馏(distillation)——即利用大模型输出训练小模型的技术——被列为受限领域之一。
隐形限制引发争议
在 Fable 的系统卡中,Anthropic 表示对疑似蒸馏尝试的查询,会直接篡改并降低模型回答质量,且不通知用户。这一做法引发了研究人员和竞争对手的不满,认为它暗中破坏了模型的可信度,也阻碍了合法研究。
Anthropic 的回应与调整
面对批评,Anthropic 在 X 上发文宣布改变策略:当检测到蒸馏查询时,Fable 将回退到 Claude Opus 4.8(Anthropic 之前的旗舰模型)来处理请求,并明确告知用户“每次都会看到这个提示”。这与其他高风险领域(如生物、化学、网络安全)的处理方式一致——在这些领域,触发安全措施时查询也会被路由到 Opus 4.8,除非直接违反更广泛的安全规则。
行业影响与反思
此次事件折射出 AI 安全与透明度之间的深层矛盾。一方面,模型蒸馏可能被用于复制或绕过安全机制,对商业模型构成威胁;另一方面,隐形限制损害了用户信任和研究开放性。Anthropic 的道歉和调整被视为一种积极信号,但同时也表明:在追求安全的同时,如何平衡透明与保护,仍是整个行业面临的难题。
值得注意的是,Fable 在其他领域(如生物学)的安全护栏已因范围过广而导致模型几乎无法回答基本问题,Anthropic 已承认这一点并承诺改进。未来,用户将能更清晰地看到限制何时生效,即使这意味着 Fable 会拒绝更多请求。
