白宫要求Anthropic杜绝AI越狱，专家称不可能

特朗普政府与Anthropic就Claude Fable 5模型的分歧正迅速激化。白宫官员向WIRED表示，若Anthropic希望重新发布因越狱风险而被出口管制的Fable 5，必须确保其护栏无法被绕过。然而，独立安全专家指出，这实际上是不可能完成的任务——因为越狱攻击的本质是利用模型固有漏洞，而完全封堵所有可能性在技术上不现实。

事件背景

Anthropic在出口管制压力下主动下线了Claude Fable 5模型，原因是美国政府（尤其是国家安全局）认定存在可禁用该模型安全护栏的方法，涉及网络安全、化学与生物学领域的敏感能力。Anthropic此前辩称越狱影响微乎其微，但官员们表示“争论已无意义”，因为NSA的结论已明确漏洞存在。

白宫的立场

知情人士透露，美国政府认为问题应由Anthropic自行解决。商务部AI标准与创新中心和NSA均缺乏人力与资源去逐一排查每个模型的越狱漏洞。因此，白宫要求Anthropic更主动地持续测试所有前沿模型，自行发现并上报潜在越狱风险。

专家的质疑

独立网络安全专家普遍认为，AI模型的护栏只是权宜之计。熟练用户和未来AI模型总能找到绕过约束的方法——这意味着白宫的要求在根本上是不可行的。专家指出，与其追求绝对安全，不如建立更灵活的风险评估与响应机制。

行业影响

此事件凸显了AI安全治理中的根本矛盾：政府希望零风险，但技术现实是越狱攻击无法根除。Anthropic的处境可能成为其他AI公司的前车之鉴，尤其是在出口管制与国家安全审查日益收紧的背景下。未来，企业或需在模型发布前与监管机构达成更明确的安全标准协议。

白宫要求Anthropic封堵所有越狱漏洞，安全专家称“不可能”

事件背景

白宫的立场

专家的质疑

行业影响

延伸阅读

相关资讯