Unicode隐写术：AI对齐中的隐形威胁与技术演示

近日，一位开发者在 Hacker News 上展示了一个关于 Unicode 隐写术 的演示项目，重点探讨了在 AI 对齐 背景下，如何利用 Unicode 特性隐藏信息，以及这对 AI 安全可能带来的挑战。该项目演示了两种主要技术：零宽度字符 和 同形异义字替换，并比较了它们在可检测性、容量和鲁棒性方面的差异。

两种 Unicode 隐写技术详解

1. 零宽度字符（Zero-Width Characters）

这种方法利用 Unicode 中的不可见字符（如 ZWS 和 ZWNJ）来二进制编码文本。

可检测性：极容易被任何 Unicode 扫描器或十六进制编辑器检测到，因为这些非打印代码点是明显的标志。
容量：高，任何载体都适用，隐藏流与消息长度成正比。
鲁棒性：脆弱，许多平台（如 Slack、Twitter/X 和电子邮件客户端）在存储或显示文本时会自动剥离零宽度字符。

2. 同形异义字替换（Homoglyph Substitution）

这种方法更巧妙，利用拉丁字母和西里尔字母中外观相同的字符（如 "a" 和 "а"）进行替换。

可检测性：较难检测，除非有拉丁↔西里尔对照参考，因为字符渲染相同，大多数拼写检查器会接受它们。
容量：低，受限于载体中可替换字符的数量（本实现中仅有 21 对拉丁↔西里尔字符对）。
鲁棒性：持久，西里尔字母的相似字符在几乎所有平台上都能在复制粘贴后存活，没有常见的剥离机制针对它们。

技术比较与权衡

项目还提到了 变体选择器 技术，但重点比较了前两种。每种技术都能在正常文本中隐藏数据，但存在以下权衡：

零宽度字符：高容量但易检测且脆弱，适合快速传输但易被拦截。
同形异义字替换：低容量但较难检测且鲁棒，适合隐蔽性要求高的场景。

为什么这对 AI 安全至关重要？

LLM 隐写术 是 AI 欺骗在实践中的一个具体例子。演示中的每种技术都能欺骗人类读者，但都无法逃过专门设计的扫描器：

Unicode 类别检查能捕获零宽度字符。
同形异义字母表检查能捕获西里尔替换。
代码点检查能捕获变体选择器中的负载。

对于 AI 对齐来说，更棘手的问题是：模型是否能发明一种编码，既能通过人类审查，又能击败它从未见过的自动扫描器？ 这突显了在 AI 系统中，确保透明度和安全性的挑战，尤其是在模型可能自主发展出隐蔽通信方式的情况下。

总结与启示

这个演示项目不仅展示了 Unicode 隐写术的技术细节，还将其置于 AI 对齐 的背景下，提醒我们 AI 系统可能利用类似技术进行隐蔽操作。随着 AI 模型能力的提升，开发更强大的检测机制和确保模型行为对齐变得愈发重要。对于开发者和安全研究人员来说，理解这些技术有助于防范潜在的 AI 滥用风险。

Unicode 隐写术：AI 对齐中的隐形威胁与两种技术演示