扩散模型概念擦除新突破：正交方法精准移除，4.3秒擦除100个概念

扩散模型在图像生成领域表现出色，但有时也会产生不当或有害内容。如何精准“擦除”特定概念（如暴力、色情等）而不损害模型的整体生成能力，一直是研究难点。来自中国科学技术大学等机构的研究团队提出了一种名为**正交概念擦除（Orthogonal Concept Erasure, OCE）**的新方法，相关论文已被 ICML 2026 接收为 Oral 论文。

现有方法的困境

当前概念擦除方法主要分为两类：训练型方法和编辑型方法。训练型方法效果较好，但计算成本高、扩展性差；编辑型方法效率高、易于部署，却在精准擦除和保持生成质量之间难以平衡。研究者发现，这一局限的根源在于编辑型方法依赖加法参数更新。他们的实证分析表明，概念语义主要取决于神经元的方向而非幅度，而整体生成能力依赖于神经元的角度几何结构。加法更新会不可避免地纠缠方向、幅度和角度几何，导致概念擦除与生成性能之间相互干扰。

OCE 的核心创新

OCE 从几何角度出发，将编辑型擦除重新定义为乘法参数更新。具体来说，OCE 通过闭式解推导出层级的正交变换，并将其应用于模型参数，从而在精确擦除目标概念的同时，保持神经元的幅度和角度几何结构不变。这意味着，模型可以忘记“狗”这个类别，但生成猫、汽车等其他物体的能力几乎不受影响。

此外，针对多概念擦除中可能出现的约束冲突问题，OCE 引入了子空间级别目标和结构化子空间操作，使得擦除多个概念时依然高效且可扩展。

实验结果

在单概念和多概念擦除任务上，OCE 均展现出优异性能。实验表明，OCE 在概念擦除效果和非目标保持能力上均优于现有方法。令人印象深刻的是，OCE 能够在 4.3 秒内擦除多达 100 个概念，效率远超训练型方法。

行业意义

OCE 不仅为扩散模型的安全部署提供了实用工具，也为理解神经网络内部表征提供了新视角。未来，该方法有望被集成到主流图像生成工具中，帮助开发者和平台更灵活地管理内容安全，同时避免因过度擦除而牺牲模型的艺术表现力或多样性。

小结

正交概念擦除（OCE）通过乘法正交变换，巧妙地解耦了概念擦除与生成能力维护之间的矛盾，实现了高效、精准且可扩展的概念移除。这一工作为 AI 安全领域带来了重要启发，也展示了基础数学原理在解决实际工程问题中的强大威力。

扩散模型概念擦除新突破：正交方法实现精准移除，保留生成能力

现有方法的困境

OCE 的核心创新

实验结果

行业意义

小结

延伸阅读

相关资讯