SheepNav
精选今天0 投票

RULER:从表征层面验证机器遗忘效果

机器遗忘(Machine Unlearning)旨在删除已部署模型中特定训练数据的影响,而无需从头重新训练。然而,现有验证协议仅从输出层面进行检验——通过成员推断、保留集准确率和遗忘集准确率——但一篇新论文揭示了一个隐患:模型可能同时通过这三项测试,却仍在其中间表征中编码了被遗忘的记录。

来自拉夫堡大学的 Georgina Cosma 和 Axel Finke 在预印本 arXiv:2605.27569 中提出了 RULER,一套基于表征层面的验证指标。其中两个核心指标引人注目:

  • M2(oracle对比指标):将被遗忘记录在遗忘模型中的表征位置与一个从头重新训练(不含这些记录)的模型中的位置进行比较,以此检测残留信息。
  • M4(无oracle指标):无需重新训练,仅通过遗忘模型内部的相似性结构即可检测残留痕迹,甚至可作为遗忘前的诊断工具。

实验覆盖表格、图像、临床文本和人脸识别等多种场景。结果显示,四种近似遗忘方法均能通过输出层评估,但在线性混合效应模型下,M2 在 12 种条件中有 10 种检测到显著残留(p<0.05),且遗忘比例越大,效应量越强。第五种方法“Bad Teacher”虽采用不同遗忘机制,同样暴露出残留。而 M4 在人脸识别模型中检测到身份级别的记忆,表明现有方法均无法彻底擦除该信号。

这项研究对 AI 合规与隐私保护具有重要价值。当前 GDPR 等法规要求的“被遗忘权”可能因验证手段的疏漏而流于形式。RULER 提供了一种更严格的审计框架,有助于发现隐藏的记忆残留,推动遗忘技术从“输出达标”走向“表征清洁”。未来,该工作或为遗忘算法的设计提供新基准,并引发对验证标准本身的反思。

延伸阅读

  1. 从文本中识别人类价值观:一种可定制的大模型架构
  2. Soro:专为塔吉克语打造的轻量级基础模型与聊天机器人
  3. 合成信息的起源:用隐写术为AI生成内容刻上“遗传印记”
查看原文