RULER: 从表征层面验证机器遗忘效果的新方法

机器遗忘（Machine Unlearning）旨在删除已部署模型中特定训练数据的影响，而无需从头重新训练。然而，现有验证协议仅从输出层面进行检验——通过成员推断、保留集准确率和遗忘集准确率——但一篇新论文揭示了一个隐患：模型可能同时通过这三项测试，却仍在其中间表征中编码了被遗忘的记录。

来自拉夫堡大学的 Georgina Cosma 和 Axel Finke 在预印本 arXiv:2605.27569 中提出了 RULER，一套基于表征层面的验证指标。其中两个核心指标引人注目：

M2（oracle对比指标）：将被遗忘记录在遗忘模型中的表征位置与一个从头重新训练（不含这些记录）的模型中的位置进行比较，以此检测残留信息。
M4（无oracle指标）：无需重新训练，仅通过遗忘模型内部的相似性结构即可检测残留痕迹，甚至可作为遗忘前的诊断工具。

实验覆盖表格、图像、临床文本和人脸识别等多种场景。结果显示，四种近似遗忘方法均能通过输出层评估，但在线性混合效应模型下，M2 在 12 种条件中有 10 种检测到显著残留（p<0.05），且遗忘比例越大，效应量越强。第五种方法“Bad Teacher”虽采用不同遗忘机制，同样暴露出残留。而 M4 在人脸识别模型中检测到身份级别的记忆，表明现有方法均无法彻底擦除该信号。

这项研究对 AI 合规与隐私保护具有重要价值。当前 GDPR 等法规要求的“被遗忘权”可能因验证手段的疏漏而流于形式。RULER 提供了一种更严格的审计框架，有助于发现隐藏的记忆残留，推动遗忘技术从“输出达标”走向“表征清洁”。未来，该工作或为遗忘算法的设计提供新基准，并引发对验证标准本身的反思。

RULER：从表征层面验证机器遗忘效果

延伸阅读

相关资讯