SheepNav
新上线今天0 投票

Demo2Reward:用少量示范优化VLM奖励模型,无需手动设计奖励函数

强化学习(RL)的成功高度依赖准确的奖励函数,但在机器人等真实场景中,奖励函数往往需要手工设计,甚至难以获得。近年来,研究者尝试利用预训练视觉语言模型(VLM)的零样本推理能力作为奖励模型,然而这类方法在缺乏精心设计的提示(prompt)时,容易产生次优奖励,其中假阳性预测会严重干扰下游策略学习。

针对这一瓶颈,来自多家机构的研究团队提出了 Demo2Reward——一种测试时提示优化方法,仅需 3-10 条专家示范轨迹,即可自动优化 VLM 奖励模型的语言指令,在减少假阳性奖励的同时保持真阳性识别。该方法无需额外的模型训练或计算资源,直接应用于策略学习之前。

核心思路

Demo2Reward 的核心洞察在于:测试时对提示进行优化。传统方法依赖手动编写提示,而 Demo2Reward 利用少量示范数据,通过可微优化调整提示文本的嵌入表示,使奖励模型更准确地匹配示范中的行为模式。具体而言,它通过对比示范轨迹与随机轨迹的奖励差异,反向传播更新提示嵌入,从而抑制错误的高分奖励(假阳性),并保留正确的奖励信号(真阳性)。

实验结果

在多个模拟机器人任务(如推箱、抓取、移动)上,Demo2Reward 一致优于现有的零样本和少样本 VLM 奖励模型。例如,在 MetaWorld 和 D4RL 基准测试中,采用 Demo2Reward 优化后的奖励模型,其下游策略成功率提升 20-40%,假阳性率降低 50% 以上。更关键的是,该方法成功迁移至真实机器人场景:在一台机械臂的抓取任务中,仅凭 5 条示范轨迹,Demo2Reward 便使机器人学会了稳定抓取,完全无需手动设计奖励函数。

意义与展望

Demo2Reward 为机器人学习提供了一条实用路径:利用少量示范数据,自动获得高质量奖励信号。这降低了 RL 在真实世界应用的门槛,尤其适合那些难以定义奖励的复杂任务。未来,该方法可进一步结合在线数据优化提示,或扩展到多模态奖励设计。论文已公开于 arXiv(2606.00083),代码即将开源。

总结

  • 问题:VLM 作为奖励模型易产生假阳性,需手动调提示。
  • 方案:Demo2Reward 用 3-10 条示范在测试时自动优化提示,无需额外训练。
  • 效果:模拟和真实任务中均显著提升奖励准确性和策略成功率。
  • 价值:让机器人能从少量演示中学习,摆脱手工奖励工程。

延伸阅读

  1. 世界模型全面综述:架构、方法论、推理范式与应用全景
  2. FoLoRA:用广义瑞利商优化实现基础模型微调与能力保持的平衡
  3. 自动可微非线性张量网络:实现深度神经网络指数级压缩的新路径
查看原文