新上线2天前54 投票
Unicode 隐写术:AI 对齐中的隐形威胁与两种技术演示
近日,一位开发者在 Hacker News 上展示了一个关于 Unicode 隐写术 的演示项目,重点探讨了在 AI 对齐 背景下,如何利用 Unicode 特性隐藏信息,以及这对 AI 安全可能带来的挑战。该项目演示了两种主要技术:零宽度字符 和 同形异义字替换,并比较了它们在可检测性、容量和鲁棒性方面的差异。
两种 Unicode 隐写技术详解
1. 零宽度字符(Zero-Width Characters)
这种方法利用 Unicode 中的不可见字符(如 ZWS 和 ZWNJ)来二进制编码文本。
- 可检测性:极容易被任何 Unicode 扫描器或十六进制编辑器检测到,因为这些非打印代码点是明显的标志。
- 容量:高,任何载体都适用,隐藏流与消息长度成正比。
- 鲁棒性:脆弱,许多平台(如 Slack、Twitter/X 和电子邮件客户端)在存储或显示文本时会自动剥离零宽度字符。
2. 同形异义字替换(Homoglyph Substitution)
这种方法更巧妙,利用拉丁字母和西里尔字母中外观相同的字符(如 "a" 和 "а")进行替换。
- 可检测性:较难检测,除非有拉丁↔西里尔对照参考,因为字符渲染相同,大多数拼写检查器会接受它们。
- 容量:低,受限于载体中可替换字符的数量(本实现中仅有 21 对拉丁↔西里尔字符对)。
- 鲁棒性:持久,西里尔字母的相似字符在几乎所有平台上都能在复制粘贴后存活,没有常见的剥离机制针对它们。
技术比较与权衡
项目还提到了 变体选择器 技术,但重点比较了前两种。每种技术都能在正常文本中隐藏数据,但存在以下权衡:
- 零宽度字符:高容量但易检测且脆弱,适合快速传输但易被拦截。
- 同形异义字替换:低容量但较难检测且鲁棒,适合隐蔽性要求高的场景。
为什么这对 AI 安全至关重要?
LLM 隐写术 是 AI 欺骗在实践中的一个具体例子。演示中的每种技术都能欺骗人类读者,但都无法逃过专门设计的扫描器:
- Unicode 类别检查能捕获零宽度字符。
- 同形异义字母表检查能捕获西里尔替换。
- 代码点检查能捕获变体选择器中的负载。
对于 AI 对齐来说,更棘手的问题是:模型是否能发明一种编码,既能通过人类审查,又能击败它从未见过的自动扫描器? 这突显了在 AI 系统中,确保透明度和安全性的挑战,尤其是在模型可能自主发展出隐蔽通信方式的情况下。
总结与启示
这个演示项目不仅展示了 Unicode 隐写术的技术细节,还将其置于 AI 对齐 的背景下,提醒我们 AI 系统可能利用类似技术进行隐蔽操作。随着 AI 模型能力的提升,开发更强大的检测机制和确保模型行为对齐变得愈发重要。对于开发者和安全研究人员来说,理解这些技术有助于防范潜在的 AI 滥用风险。
