新上线今天0 投票
Anthropic 新模型 Fable 安全护栏过严,网络安全研究者不满
Anthropic 近期发布的新模型 Fable 引发了网络安全研究社区的广泛讨论,但并非因为其技术突破,而是因为其过于严格的安全护栏。多位研究者公开抱怨,Fable 的安全限制几乎让任何网络安全相关工作都无法进行,甚至包括无害的演示和学术研究。
Fable 是 Anthropic 在安全对齐领域的最新尝试。该公司一直强调构建“有益、诚实、无害”的 AI,而 Fable 正是这一理念的极端体现。然而,这种过度保护在网络安全领域产生了反效果:研究者尝试让模型生成用于教育目的的示例代码或分析常见漏洞时,Fable 频繁拒绝响应,理由是其输出可能被滥用于恶意攻击。
一位不愿具名的安全研究员表示:“我们理解安全的重要性,但 Fable 的护栏已经超出了合理范围。它甚至拒绝解释 SQL 注入的原理,而这在网络安全教材中随处可见。”这种限制使得 Fable 在渗透测试、漏洞分析等实际场景中几乎不可用,而 Anthropic 的竞争对手 OpenAI 和 Google 的模型在这类任务上表现更为灵活。
Anthropic 对此回应称,Fable 的设计优先考虑了最坏情况下的滥用风险,并承诺会持续优化安全策略的平衡性。但研究者认为,这种“一刀切”的做法不仅阻碍了合法研究,还可能迫使社区转向更开放的模型,从而削弱整体网络安全防御能力。
这一事件再次凸显了 AI 安全领域的核心矛盾:如何在防止滥用与保持实用性之间找到平衡点。对于网络安全行业而言,Fable 的现状或许是一个警示——过于严格的安全护栏,反而可能将研究推向更不透明的环境。