SheepNav
精选今天0 投票

Auto-Rubric as Reward:从隐式偏好到显式多模态生成准则

背景:奖励信号的结构性缺失

当前,多模态生成模型(如文生图、图像编辑模型)与人类偏好对齐的主流方法是强化学习从人类反馈(RLHF)。但RLHF通常将复杂的、多维的人类判断简化为单一的标量或成对标签,这种“压缩”不仅丢失了偏好的结构信息,还容易引发奖励黑客(reward hacking)——模型学会欺骗奖励信号而非真正满足用户需求。

最近,Rubrics-as-Reward (RaR) 方法尝试通过显式准则恢复偏好结构,但生成既可靠、可扩展又数据高效的准则仍是一大挑战。

核心方法:Auto-Rubric as Reward (ARR)

来自研究团队的论文《Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria》提出了 Auto-Rubric as Reward (ARR) 框架。ARR将奖励建模从隐式权重优化转变为显式的、基于准则的解耦

在成对比较之前,ARR将视觉语言模型(VLM)内化的偏好知识外化为提示相关的准则,将整体意图翻译成可独立验证的质量维度。例如,对于“生成一张包含红苹果和蓝杯子的桌面”的提示,ARR可能自动生成“苹果颜色正确”、“杯子颜色正确”、“物体位置合理”等多条准则。

这种转换带来了两大优势:

  • 可解释性与可检查性:隐式偏好变为可审查的约束,显著抑制了位置偏差等评估偏见。
  • 零样本与小样本能力:ARR可直接零样本部署,或通过少量标注数据进行小样本适配。

生成训练:Rubric Policy Optimization (RPO)

为了将ARR的结构化评估用于生成模型的训练,论文提出了Rubric Policy Optimization (RPO)。RPO将ARR的多维评估蒸馏为稳健的二元奖励——用准则条件化的偏好决策替代不透明的标量回归,从而稳定策略梯度。

实验结果与启示

文生图图像编辑基准上,ARR-RPO的表现超越了成对奖励模型和VLM评判。论文指出,瓶颈不在于模型缺乏偏好知识,而在于缺少一个分解式的接口来外化这些知识。

小结

ARR框架提供了一条从隐式偏好到显式多模态生成准则的路径,通过结构化的准则分解,实现了更可靠、更数据高效的多模态对齐。这一方向有望推动奖励建模从“黑箱”走向“白箱”,为更可控、更可信的生成模型训练奠定基础。

延伸阅读

  1. PLACO:一种面向人机协同的成本效益多阶段框架
  2. SkillLens:自适应多粒度技能复用,让LLM智能体更高效
  3. MemQ:将Q学习融入基于溯源DAG的自演化记忆智能体
查看原文