Auto-Rubric as Reward: 显式多模态生成准则新框架

背景：奖励信号的结构性缺失

当前，多模态生成模型（如文生图、图像编辑模型）与人类偏好对齐的主流方法是强化学习从人类反馈（RLHF）。但RLHF通常将复杂的、多维的人类判断简化为单一的标量或成对标签，这种“压缩”不仅丢失了偏好的结构信息，还容易引发奖励黑客（reward hacking）——模型学会欺骗奖励信号而非真正满足用户需求。

最近，Rubrics-as-Reward (RaR) 方法尝试通过显式准则恢复偏好结构，但生成既可靠、可扩展又数据高效的准则仍是一大挑战。

核心方法：Auto-Rubric as Reward (ARR)

来自研究团队的论文《Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria》提出了 Auto-Rubric as Reward (ARR) 框架。ARR将奖励建模从隐式权重优化转变为显式的、基于准则的解耦。

在成对比较之前，ARR将视觉语言模型（VLM）内化的偏好知识外化为提示相关的准则，将整体意图翻译成可独立验证的质量维度。例如，对于“生成一张包含红苹果和蓝杯子的桌面”的提示，ARR可能自动生成“苹果颜色正确”、“杯子颜色正确”、“物体位置合理”等多条准则。

这种转换带来了两大优势：

可解释性与可检查性：隐式偏好变为可审查的约束，显著抑制了位置偏差等评估偏见。
零样本与小样本能力：ARR可直接零样本部署，或通过少量标注数据进行小样本适配。

生成训练：Rubric Policy Optimization (RPO)

为了将ARR的结构化评估用于生成模型的训练，论文提出了Rubric Policy Optimization (RPO)。RPO将ARR的多维评估蒸馏为稳健的二元奖励——用准则条件化的偏好决策替代不透明的标量回归，从而稳定策略梯度。

实验结果与启示

在文生图和图像编辑基准上，ARR-RPO的表现超越了成对奖励模型和VLM评判。论文指出，瓶颈不在于模型缺乏偏好知识，而在于缺少一个分解式的接口来外化这些知识。

小结

ARR框架提供了一条从隐式偏好到显式多模态生成准则的路径，通过结构化的准则分解，实现了更可靠、更数据高效的多模态对齐。这一方向有望推动奖励建模从“黑箱”走向“白箱”，为更可控、更可信的生成模型训练奠定基础。

Auto-Rubric as Reward：从隐式偏好到显式多模态生成准则

背景：奖励信号的结构性缺失

核心方法：Auto-Rubric as Reward (ARR)

生成训练：Rubric Policy Optimization (RPO)

实验结果与启示

小结

延伸阅读

相关资讯