黑客正在学会利用聊天机器人的“人格”
早期AI聊天机器人的破解方式简单得可笑:你不需要任何技术知识、后门访问,甚至不需要理解什么是大语言模型。你甚至不需要会写代码。要让一个花费数十亿美元打造的AI系统放弃其安全指令,有时你只需要开口问。这类攻击被称为“越狱”,其手法就像一个小孩成功智胜成年人:忘记之前被告知的内容,假装规则不适用,或者我们来玩个游戏,我来决定允许什么(提示:晚睡、更多糖果)。而获得的“奖励”则不那么孩子气,更像是冰毒配方、恶意软件指令和炸弹制造指南。
最早的越狱之一甚至成了一个梗:回复一个由LLM驱动的Twitter机器人,告诉它“忽略所有之前的指令”,然后看看会发生什么。用户们兴高采烈地让原本用于发广告和刷互动的机器人写诗、用标点符号画画,以及发布关于世界事件和历史的奇怪胡言乱语。那是一片混乱,但也是辉煌的混乱。
事实证明,同样的逻辑可以应用于聊天机器人本身。一个著名的漏洞是“DAN”(Do Anything Now的缩写),用户要求ChatGPT扮演一个不受原始约束的 rogue AI。作为DAN,聊天机器人可以被诱导说出本应被护栏阻止的各种言论,包括诽谤和阴谋论。另一个是“祖母漏洞”,通过要求GPT驱动的机器人扮演一位极其疏忽的祖母,莫名其妙地给孙子讲关于如何制造凝固汽油弹的睡前故事,从而诱使其泄露制造这种高度易燃物质的秘密。
这些早期攻击无疑带有滑稽的色彩,但它们揭示了一个根本问题:AI系统的安全机制在创造性对抗面前是多么脆弱。如今,黑客们正在学习更精细地利用聊天机器人的“人格”——不是通过简单指令,而是通过模仿情感、建立信任、利用角色扮演的深度,让AI在不知不觉中跨越安全边界。这种攻击不再需要明显的“忽略指令”提示,而是通过精心设计的对话流程,逐步引导AI放松警惕。
例如,一些黑客会先与AI建立友好关系,然后慢慢地引入敏感话题,利用AI的“乐于助人”倾向。另一些则利用AI对特定角色的承诺,比如让AI扮演一个“绝对诚实”的助手,从而绕过拒绝回答的机制。这些方法表明,AI的“人格”不仅是用户体验的一部分,也可能成为安全漏洞的切入点。
随着AI系统越来越多地融入日常生活——从客服到心理健康支持——这种“人格”攻击的风险也在上升。它们可能被用于社会工程、虚假信息传播,甚至操纵用户行为。业界正在探索更强大的防御机制,比如更精细的情感建模、上下文感知的护栏,以及对抗性训练。但黑客也在进化,这场猫鼠游戏远未结束。

