Anthropic Fable 安全护栏过严引网络安全研究者不满

Anthropic 近期发布的新模型 Fable 引发了网络安全研究社区的广泛讨论，但并非因为其技术突破，而是因为其过于严格的安全护栏。多位研究者公开抱怨，Fable 的安全限制几乎让任何网络安全相关工作都无法进行，甚至包括无害的演示和学术研究。

Fable 是 Anthropic 在安全对齐领域的最新尝试。该公司一直强调构建“有益、诚实、无害”的 AI，而 Fable 正是这一理念的极端体现。然而，这种过度保护在网络安全领域产生了反效果：研究者尝试让模型生成用于教育目的的示例代码或分析常见漏洞时，Fable 频繁拒绝响应，理由是其输出可能被滥用于恶意攻击。

一位不愿具名的安全研究员表示：“我们理解安全的重要性，但 Fable 的护栏已经超出了合理范围。它甚至拒绝解释 SQL 注入的原理，而这在网络安全教材中随处可见。”这种限制使得 Fable 在渗透测试、漏洞分析等实际场景中几乎不可用，而 Anthropic 的竞争对手 OpenAI 和 Google 的模型在这类任务上表现更为灵活。

Anthropic 对此回应称，Fable 的设计优先考虑了最坏情况下的滥用风险，并承诺会持续优化安全策略的平衡性。但研究者认为，这种“一刀切”的做法不仅阻碍了合法研究，还可能迫使社区转向更开放的模型，从而削弱整体网络安全防御能力。

这一事件再次凸显了 AI 安全领域的核心矛盾：如何在防止滥用与保持实用性之间找到平衡点。对于网络安全行业而言，Fable 的现状或许是一个警示——过于严格的安全护栏，反而可能将研究推向更不透明的环境。

Anthropic 新模型 Fable 安全护栏过严，网络安全研究者不满

延伸阅读

相关资讯