Demo2Reward：用少量示范优化VLM奖励模型，无需手工设计

强化学习（RL）的成功高度依赖准确的奖励函数，但在机器人等真实场景中，奖励函数往往需要手工设计，甚至难以获得。近年来，研究者尝试利用预训练视觉语言模型（VLM）的零样本推理能力作为奖励模型，然而这类方法在缺乏精心设计的提示（prompt）时，容易产生次优奖励，其中假阳性预测会严重干扰下游策略学习。

针对这一瓶颈，来自多家机构的研究团队提出了 Demo2Reward——一种测试时提示优化方法，仅需 3-10 条专家示范轨迹，即可自动优化 VLM 奖励模型的语言指令，在减少假阳性奖励的同时保持真阳性识别。该方法无需额外的模型训练或计算资源，直接应用于策略学习之前。

核心思路

Demo2Reward 的核心洞察在于：测试时对提示进行优化。传统方法依赖手动编写提示，而 Demo2Reward 利用少量示范数据，通过可微优化调整提示文本的嵌入表示，使奖励模型更准确地匹配示范中的行为模式。具体而言，它通过对比示范轨迹与随机轨迹的奖励差异，反向传播更新提示嵌入，从而抑制错误的高分奖励（假阳性），并保留正确的奖励信号（真阳性）。

实验结果

在多个模拟机器人任务（如推箱、抓取、移动）上，Demo2Reward 一致优于现有的零样本和少样本 VLM 奖励模型。例如，在 MetaWorld 和 D4RL 基准测试中，采用 Demo2Reward 优化后的奖励模型，其下游策略成功率提升 20-40%，假阳性率降低 50% 以上。更关键的是，该方法成功迁移至真实机器人场景：在一台机械臂的抓取任务中，仅凭 5 条示范轨迹，Demo2Reward 便使机器人学会了稳定抓取，完全无需手动设计奖励函数。

意义与展望

Demo2Reward 为机器人学习提供了一条实用路径：利用少量示范数据，自动获得高质量奖励信号。这降低了 RL 在真实世界应用的门槛，尤其适合那些难以定义奖励的复杂任务。未来，该方法可进一步结合在线数据优化提示，或扩展到多模态奖励设计。论文已公开于 arXiv（2606.00083），代码即将开源。

总结

问题：VLM 作为奖励模型易产生假阳性，需手动调提示。
方案：Demo2Reward 用 3-10 条示范在测试时自动优化提示，无需额外训练。
效果：模拟和真实任务中均显著提升奖励准确性和策略成功率。
价值：让机器人能从少量演示中学习，摆脱手工奖励工程。

Demo2Reward：用少量示范优化VLM奖励模型，无需手动设计奖励函数

核心思路

实验结果

意义与展望

总结

延伸阅读

相关资讯