新上线今天0 投票
QPILOTS:流策略的高效测试时Q引导方法
强化学习(RL)与扩散模型或流匹配(flow-matching)策略的结合一直面临挑战:虽然这类生成模型能表达丰富的动作分布,但通过时间差分(TD)学习优化时,直接利用评论家(critic)的动作梯度反向传播会因多步去噪过程而出现数值不稳定。现有方法要么丢弃梯度信息、将策略蒸馏为单步动作,要么随评论家更新反复微调去噪网络,效率和性能难以兼得。
QPILOTS 的核心思路:保持原始策略不变,在推理时引导去噪过程。具体来说,在每个去噪步骤中,不直接在噪声中间动作上评估评论家(该处预测不可靠),而是先将中间状态投影到最终干净动作的估计值,再在该估计值上计算评论家梯度,并用该梯度修正去噪方向。论文提出两种变体:QPILOTS-U 采用快速单点近似,计算开销低;QPILOTS-M 则通过一个可学习的辅助网络生成可微的后验样本,精度更高。
性能表现:在标准的离线到在线 RL 基准测试中,QPILOTS 在 50 个任务上平均成功率达到 90%,综合表现最佳。此外,作者将 QPILOTS 应用于冻结的大型预训练视觉-语言-动作(VLA)基础模型,在 6 个仿真操作任务上,其性能超越或持平于已有的推理时引导方法。
行业意义:这项研究为大规模预训练策略的“零微调”部署提供了新思路——无需修改模型参数或重新训练,仅通过推理时的梯度引导就能显著提升决策质量。对于机器人操作、自动驾驶等需要快速适应新任务的场景,QPILOTS 有望降低部署成本,同时保持策略的泛化能力。