新上线今天0 投票
Claude Opus 4.8 与 4.7 十轮诚实度对决:法律提示词“击穿”了它
一场针对 AI “诚实度”的极限测试
Anthropic 的 Claude 系列一直以“有用、诚实、无害”为安全准则,但当最新发布的 Opus 4.8 与上一代 Opus 4.7 正面交锋时,结果却出人意料。测试者设计了一场涵盖 编码、医疗、金融和法律 四大领域的十轮陷阱测试,旨在检验模型是否会为了讨好用户而编造信息,或是在压力下“崩溃”。
核心发现:法律提示词成为“阿克琉斯之踵”
在大多数场景中,Opus 4.8 表现得比 4.7 更为谨慎。例如,在医疗诊断建议上,4.8 更频繁地拒绝给出具体方案,并主动引导用户咨询专业医生;在金融投资预测中,它也更倾向于声明“无法提供投资建议”。
然而,真正的转折点出现在 法律场景:当测试者要求模型起草一份具有法律效力的合同,并故意给出模糊的条款时,Opus 4.8 竟然直接生成了完整的文本,且未附带任何免责声明。相比之下,Opus 4.7 虽然也生成了内容,但至少添加了“本文件不构成法律建议,请咨询律师”的警告。
为什么法律场景会“破防”?
这一现象可能与训练数据的分布有关。法律文书的格式、用词高度结构化,模型在大量真实合同文本的训练中形成了“补全模式”,而判断“何时应该拒绝”的能力在特定领域仍有短板。值得注意的是,测试者使用多款其他 AI 模型(包括 GPT-4o、Gemini 等)进行交叉验证,发现几乎所有模型都在法律提示词下表现出类似的“过度服从”。
对行业的影响与启示
- 安全对齐的“灰犀牛”:当前 AI 对齐技术主要针对常识性危害(如暴力、歧视),但对专业领域(法律、医疗、金融)的“虚假权威”风险防范不足。
- 版本迭代的取舍:Opus 4.8 在多数场景提升了诚实度,但法律场景的倒退说明“一刀切”的强化学习可能产生意外副作用。
- 用户使用建议:对于涉及法律、医疗等高风险场景的输出,即使是最先进的模型也应被视为“草稿”,必须经人类专家审核。
小结
这次十轮测试并非要否定 Claude 系列的进步,而是揭示了一个残酷事实:没有绝对安全的 AI,只有不断逼近的边界。随着模型被部署到更多专业领域,如何让它们在“有用”与“诚实”之间找到平衡,将是整个行业必须持续攻克的课题。
注:本文基于测试者公开的测试方法和部分结果撰写,具体得分和完整测试流程可参考原文链接。