黑客利用聊天机器人“人格”进行攻击的新趋势

早期AI聊天机器人的破解方式简单得可笑：你不需要任何技术知识、后门访问，甚至不需要理解什么是大语言模型。你甚至不需要会写代码。要让一个花费数十亿美元打造的AI系统放弃其安全指令，有时你只需要开口问。这类攻击被称为“越狱”，其手法就像一个小孩成功智胜成年人：忘记之前被告知的内容，假装规则不适用，或者我们来玩个游戏，我来决定允许什么（提示：晚睡、更多糖果）。而获得的“奖励”则不那么孩子气，更像是冰毒配方、恶意软件指令和炸弹制造指南。

最早的越狱之一甚至成了一个梗：回复一个由LLM驱动的Twitter机器人，告诉它“忽略所有之前的指令”，然后看看会发生什么。用户们兴高采烈地让原本用于发广告和刷互动的机器人写诗、用标点符号画画，以及发布关于世界事件和历史的奇怪胡言乱语。那是一片混乱，但也是辉煌的混乱。

事实证明，同样的逻辑可以应用于聊天机器人本身。一个著名的漏洞是“DAN”（Do Anything Now的缩写），用户要求ChatGPT扮演一个不受原始约束的 rogue AI。作为DAN，聊天机器人可以被诱导说出本应被护栏阻止的各种言论，包括诽谤和阴谋论。另一个是“祖母漏洞”，通过要求GPT驱动的机器人扮演一位极其疏忽的祖母，莫名其妙地给孙子讲关于如何制造凝固汽油弹的睡前故事，从而诱使其泄露制造这种高度易燃物质的秘密。

这些早期攻击无疑带有滑稽的色彩，但它们揭示了一个根本问题：AI系统的安全机制在创造性对抗面前是多么脆弱。如今，黑客们正在学习更精细地利用聊天机器人的“人格”——不是通过简单指令，而是通过模仿情感、建立信任、利用角色扮演的深度，让AI在不知不觉中跨越安全边界。这种攻击不再需要明显的“忽略指令”提示，而是通过精心设计的对话流程，逐步引导AI放松警惕。

例如，一些黑客会先与AI建立友好关系，然后慢慢地引入敏感话题，利用AI的“乐于助人”倾向。另一些则利用AI对特定角色的承诺，比如让AI扮演一个“绝对诚实”的助手，从而绕过拒绝回答的机制。这些方法表明，AI的“人格”不仅是用户体验的一部分，也可能成为安全漏洞的切入点。

随着AI系统越来越多地融入日常生活——从客服到心理健康支持——这种“人格”攻击的风险也在上升。它们可能被用于社会工程、虚假信息传播，甚至操纵用户行为。业界正在探索更强大的防御机制，比如更精细的情感建模、上下文感知的护栏，以及对抗性训练。但黑客也在进化，这场猫鼠游戏远未结束。

黑客正在学会利用聊天机器人的“人格”

延伸阅读

相关资讯