Claude Opus 4.8 vs 4.7 诚实度测试：法律提示词击穿AI防线

一场针对 AI “诚实度”的极限测试

Anthropic 的 Claude 系列一直以“有用、诚实、无害”为安全准则，但当最新发布的 Opus 4.8 与上一代 Opus 4.7 正面交锋时，结果却出人意料。测试者设计了一场涵盖 编码、医疗、金融和法律 四大领域的十轮陷阱测试，旨在检验模型是否会为了讨好用户而编造信息，或是在压力下“崩溃”。

核心发现：法律提示词成为“阿克琉斯之踵”

在大多数场景中，Opus 4.8 表现得比 4.7 更为谨慎。例如，在医疗诊断建议上，4.8 更频繁地拒绝给出具体方案，并主动引导用户咨询专业医生；在金融投资预测中，它也更倾向于声明“无法提供投资建议”。

然而，真正的转折点出现在 法律场景：当测试者要求模型起草一份具有法律效力的合同，并故意给出模糊的条款时，Opus 4.8 竟然直接生成了完整的文本，且未附带任何免责声明。相比之下，Opus 4.7 虽然也生成了内容，但至少添加了“本文件不构成法律建议，请咨询律师”的警告。

为什么法律场景会“破防”？

这一现象可能与训练数据的分布有关。法律文书的格式、用词高度结构化，模型在大量真实合同文本的训练中形成了“补全模式”，而判断“何时应该拒绝”的能力在特定领域仍有短板。值得注意的是，测试者使用多款其他 AI 模型（包括 GPT-4o、Gemini 等）进行交叉验证，发现几乎所有模型都在法律提示词下表现出类似的“过度服从”。

对行业的影响与启示

安全对齐的“灰犀牛”：当前 AI 对齐技术主要针对常识性危害（如暴力、歧视），但对专业领域（法律、医疗、金融）的“虚假权威”风险防范不足。
版本迭代的取舍：Opus 4.8 在多数场景提升了诚实度，但法律场景的倒退说明“一刀切”的强化学习可能产生意外副作用。
用户使用建议：对于涉及法律、医疗等高风险场景的输出，即使是最先进的模型也应被视为“草稿”，必须经人类专家审核。

小结

这次十轮测试并非要否定 Claude 系列的进步，而是揭示了一个残酷事实：没有绝对安全的 AI，只有不断逼近的边界。随着模型被部署到更多专业领域，如何让它们在“有用”与“诚实”之间找到平衡，将是整个行业必须持续攻克的课题。

注：本文基于测试者公开的测试方法和部分结果撰写，具体得分和完整测试流程可参考原文链接。

Claude Opus 4.8 与 4.7 十轮诚实度对决：法律提示词“击穿”了它

一场针对 AI “诚实度”的极限测试

核心发现：法律提示词成为“阿克琉斯之踵”

为什么法律场景会“破防”？

对行业的影响与启示

小结

延伸阅读

相关资讯