SheepNav
新上线今天0 投票

大模型对齐算法的“黑箱”被打开:六种偏好优化方法的内部机制解析

大语言模型的对齐(Alignment)算法,如 RLHF、DPO 等,通常被视为“黑箱”——我们知道它们让模型输出更符合人类偏好,却很少了解它们究竟如何重塑模型的内部计算。近日,一项来自学术界的系统性研究(arXiv:2606.09850)填补了这一空白,对六种主流偏好优化方法进行了详尽的机理分析,揭示了不同算法在模型内部引发截然不同的几何变换。

研究对象与方法

研究团队选取了 PPO、DPO、SimPO、ORPO、GRPO 和 KTO 六种方法,在三个开源模型家族上开展实验。他们综合运用了逐层线性探测(layer-wise linear probing)稀疏自编码器(Sparse Autoencoders)crosscoders 等技术,定位偏好表示的具体位置,并量化对齐引起的潜在空间几何变化。

关键发现:不同算法,不同“手术”

研究首次系统性地比较了这些算法对模型内部表示的改造方式。核心结论如下:

  • 偏好信号集中出现:所有方法都会在模型的早期-中期中期-晚期层集中形成偏好表示,但不同目标函数导致的表示偏移(representational shifts) 在质量上差异显著。
  • KTO 与 GRPO 表现最佳:这两种方法通过建设性的特征共享稀疏、高显著性的特征招募,显著提升了线性可分性,使模型内部对“偏好”与“非偏好”的区分更加清晰。
  • DPO 与 ORPO 效果较差:它们反而降低了线性可分性,原因是引入了非建设性的几何旋转特征衰减,使得原本清晰的边界变得模糊。
  • PPO 与 SimPO 保持中性:这两种方法基本保持了基线几何结构,未对内部表示造成显著扰动。

研究还指出,这些变换表现出依赖模型架构的可变性,即行为上对齐并不意味着内部结构发生了统一的重新组织。

行业启示:对齐不是“一刀切”

该研究的结论对 AI 安全与可解释性具有重要实践意义:

  1. 对齐算法并非越强越好:有些方法虽然能提升模型行为表现,却可能以破坏内部表示结构为代价,这或许会带来隐藏的安全风险。
  2. 标准化特征级审计:研究呼吁建立统一的内部特征审计流程,以便在部署前评估对齐算法对模型计算的影响。
  3. 机制感知的目标函数设计:未来的对齐优化目标应考虑内部机制,而非仅仅关注行为结果。

这项研究为 AI 安全社区提供了宝贵的工具和视角,提醒我们在追求“有用”和“无害”的同时,也要关注模型内部的“健康”。随着对齐算法在大模型中的应用日益普及,理解其内部运作机制将成为保障 AI 可靠性的关键一步。

延伸阅读

  1. Meta 在印度签署首个 AI 数据中心协议,与信实集团合作
  2. 缓解多模态大模型幻觉:MGAP 方法以几何感知解码实现可信推理
  3. 梯度提升结合共形预测:为非酒精性脂肪肝病提供无分布假设的风险评估
查看原文