SheepNav
精选今天0 投票

扩散模型概念擦除新突破:正交方法实现精准移除,保留生成能力

扩散模型在图像生成领域表现出色,但有时也会产生不当或有害内容。如何精准“擦除”特定概念(如暴力、色情等)而不损害模型的整体生成能力,一直是研究难点。来自中国科学技术大学等机构的研究团队提出了一种名为**正交概念擦除(Orthogonal Concept Erasure, OCE)**的新方法,相关论文已被 ICML 2026 接收为 Oral 论文。

现有方法的困境

当前概念擦除方法主要分为两类:训练型方法编辑型方法。训练型方法效果较好,但计算成本高、扩展性差;编辑型方法效率高、易于部署,却在精准擦除和保持生成质量之间难以平衡。研究者发现,这一局限的根源在于编辑型方法依赖加法参数更新。他们的实证分析表明,概念语义主要取决于神经元的方向而非幅度,而整体生成能力依赖于神经元的角度几何结构。加法更新会不可避免地纠缠方向、幅度和角度几何,导致概念擦除与生成性能之间相互干扰。

OCE 的核心创新

OCE 从几何角度出发,将编辑型擦除重新定义为乘法参数更新。具体来说,OCE 通过闭式解推导出层级的正交变换,并将其应用于模型参数,从而在精确擦除目标概念的同时,保持神经元的幅度和角度几何结构不变。这意味着,模型可以忘记“狗”这个类别,但生成猫、汽车等其他物体的能力几乎不受影响。

此外,针对多概念擦除中可能出现的约束冲突问题,OCE 引入了子空间级别目标和结构化子空间操作,使得擦除多个概念时依然高效且可扩展。

实验结果

在单概念和多概念擦除任务上,OCE 均展现出优异性能。实验表明,OCE 在概念擦除效果非目标保持能力上均优于现有方法。令人印象深刻的是,OCE 能够在 4.3 秒内擦除多达 100 个概念,效率远超训练型方法。

行业意义

OCE 不仅为扩散模型的安全部署提供了实用工具,也为理解神经网络内部表征提供了新视角。未来,该方法有望被集成到主流图像生成工具中,帮助开发者和平台更灵活地管理内容安全,同时避免因过度擦除而牺牲模型的艺术表现力或多样性。

小结

正交概念擦除(OCE)通过乘法正交变换,巧妙地解耦了概念擦除与生成能力维护之间的矛盾,实现了高效、精准且可扩展的概念移除。这一工作为 AI 安全领域带来了重要启发,也展示了基础数学原理在解决实际工程问题中的强大威力。

延伸阅读

  1. 《下载》杂志:解锁锂资源与抗击埃博拉
  2. 刚果(金)致命埃博拉疫情难以控制:布恩迪布焦病毒无疫苗可用
  3. 教皇新通谕《宏大的人性》:为个体应对AI时代提供行动指南
查看原文