SheepNav
精选今天0 投票

多任务遗忘学习中的干扰问题:新方法实现精准数据擦除

多任务学习中的“遗忘”难题

随着数据隐私法规(如GDPR)的普及,机器遗忘学习(Machine Unlearning) 成为AI领域的研究热点。其目标是让训练好的模型“忘记”特定训练数据的影响,同时保持对剩余数据的性能。然而,现有研究多聚焦于单任务场景,而现代模型(如多任务视觉模型)常采用共享骨干网络,这意味着删除一个任务或样本的监督信号可能会无意中影响其他任务。

近日,来自中国台湾大学的研究团队在arXiv上发表了题为《Interference-Aware Multi-Task Unlearning》的论文,首次系统定义了多任务遗忘学习的两种场景:

  • 全任务遗忘:从所有任务中移除目标实例的贡献;
  • 部分任务遗忘:仅从选定任务中移除监督,保留其他任务不变。

干扰的本质:任务级与实例级

研究发现,共享参数是干扰的根源。当模型试图遗忘特定数据时,梯度更新不仅会影响目标任务,还会通过共享骨干传播到其他任务,造成任务级干扰;同时,遗忘样本与保留样本之间的梯度冲突会导致实例级干扰。这种双重干扰使得现有单任务遗忘方法在多任务场景下性能急剧下降。

解决方案:干扰感知框架

为了应对这一挑战,团队提出了干扰感知多任务遗忘框架(Interference-Aware Multi-Task Unlearning),其核心包含两个技术组件:

  1. 任务感知梯度投影:将梯度更新限制在任务特定的子空间内,减少对非目标任务的影响;
  2. 实例级梯度正交化:通过正交化遗忘信号与保留信号的梯度方向,降低两者之间的冲突。

实验结果:性能显著提升

在包含五个任务的计算机视觉基准测试中,该方法表现出色:

  • 在全任务遗忘设置下,未遗忘样本干扰(UIS) 相比最强基线降低了 30.3%
  • 在部分任务遗忘设置下,UIS降低了 52.9%

这表明,通过显式建模干扰,遗忘过程可以在保持模型泛化能力的同时,实现更精准的数据擦除。

行业意义与展望

多任务遗忘学习对于实际应用至关重要。例如,在医疗影像分析中,模型可能同时处理病灶检测、器官分割等多个任务,当需要删除某个患者的全部数据时,必须确保不影响其他诊断任务。此外,在推荐系统中,用户可能希望仅移除特定场景下的行为数据(如购物记录),而保留浏览历史。

该研究为多任务场景下的隐私合规提供了新的技术路径,未来可进一步扩展到自然语言处理和多模态模型。不过,论文目前仅验证了计算机视觉任务,其通用性仍需更多实验证明。

参考:Ying-Hua Huang et al., “Interference-Aware Multi-Task Unlearning,” arXiv:2605.19042, 2026.

延伸阅读

  1. 气候科技公司转向关键矿产:求生还是新机遇?
  2. 科技研究人员起诉特朗普政府:在线安全与言论自由的未来之战
  3. 立场:开发“数据探针”以根本理解数据如何影响大模型性能
查看原文