SheepNav
新上线今天0 投票

MidSteer:生成模型操控的最优仿射框架

生成模型(如扩散模型和大语言模型)的中间表示操控(steering)是一种在部署后对齐和安全场景中广泛使用的技术,但长期以来缺乏系统的理论支撑。近日,一篇发表于 arXiv 的论文《MidSteer: Optimal Affine Framework for Steering Generative Models》填补了这一空白,提出了一个统一且最优的仿射操控框架。

从概念擦除到概念切换

论文首先建立了操控与仿射概念擦除之间的理论联系。作者证明,标准的概念移除方法实际上是 LEACE(一种闭式仿射擦除方法)的特例。在此基础上,他们提出了 LEACE-Switch,一个用于概念切换(concept switching)的最优仿射框架,并明确了其成立所需的假设条件。

然而,LEACE-Switch 的假设在实际应用中可能过于严格。为此,作者进一步提出了 MidSteer(最小扰动概念操控),这是一个更通用的仿射框架,它放松了 LEACE-Switch 的假设,允许进行 有方向、最小扰动 的变换。MidSteer 的核心思想是:在保持生成模型原有性能(即最小化对表示的扰动)的同时,精确地将指定概念的方向进行操纵(如增强或抑制)。

跨模态、跨架构的验证

论文在多个任务、模态和架构上验证了 MidSteer 的效果,包括 视觉扩散模型(如 Stable Diffusion)和 大语言模型(如 GPT-2 和 Llama)。实验结果表明,MidSteer 在概念操控的准确性、生成质量的保持以及计算效率方面均优于现有方法。

例如,在扩散模型中,MidSteer 可以更精准地控制图像中的属性(如“微笑”或“年龄”),同时不改变与目标属性无关的部分;在语言模型中,它可以用于调整输出的情感倾向或主题,而避免生成不自然或语法错误的文本。

理论贡献与行业意义

这项工作的理论贡献在于:

  • 首次将操控问题形式化为仿射变换下的优化问题,并给出了最优闭式解。
  • 统一了概念擦除和概念切换两种任务,揭示了它们的内在联系。

从行业角度看,MidSteer 为生成模型的安全部署提供了更可靠的工具。例如,在内容审核中,可以精确移除有害概念(如暴力、偏见),同时保留模型的其他能力;在个性化生成中,可以按需增强特定风格或主题。由于 MidSteer 是 模型无关 的,它可以直接应用于现有预训练模型,无需重新训练或微调,降低了落地成本。

小结

MidSteer 不仅为生成模型操控提供了坚实的理论基础,还给出了一个实用且高效的算法。随着生成模型在更多领域落地,这类可解释、可控制的技术将变得越来越重要。未来,研究者可以进一步探索 MidSteer 在多概念联合操控、动态环境适应等方向的扩展。

延伸阅读

  1. 被裁Oracle员工试图争取更好遣散费,公司:不行
  2. 索尼称“高效”AI工具将使更多游戏涌入市场
  3. 英特尔复兴之路比想象中更疯狂:股价飙升490%,华尔街赌局跑在现实前面
查看原文