QPILOTS: 高效测试时Q引导，提升流策略RL性能

强化学习（RL）与扩散模型或流匹配（flow-matching）策略的结合一直面临挑战：虽然这类生成模型能表达丰富的动作分布，但通过时间差分（TD）学习优化时，直接利用评论家（critic）的动作梯度反向传播会因多步去噪过程而出现数值不稳定。现有方法要么丢弃梯度信息、将策略蒸馏为单步动作，要么随评论家更新反复微调去噪网络，效率和性能难以兼得。

QPILOTS 的核心思路：保持原始策略不变，在推理时引导去噪过程。具体来说，在每个去噪步骤中，不直接在噪声中间动作上评估评论家（该处预测不可靠），而是先将中间状态投影到最终干净动作的估计值，再在该估计值上计算评论家梯度，并用该梯度修正去噪方向。论文提出两种变体：QPILOTS-U 采用快速单点近似，计算开销低；QPILOTS-M 则通过一个可学习的辅助网络生成可微的后验样本，精度更高。

性能表现：在标准的离线到在线 RL 基准测试中，QPILOTS 在 50 个任务上平均成功率达到 90%，综合表现最佳。此外，作者将 QPILOTS 应用于冻结的大型预训练视觉-语言-动作（VLA）基础模型，在 6 个仿真操作任务上，其性能超越或持平于已有的推理时引导方法。

行业意义：这项研究为大规模预训练策略的“零微调”部署提供了新思路——无需修改模型参数或重新训练，仅通过推理时的梯度引导就能显著提升决策质量。对于机器人操作、自动驾驶等需要快速适应新任务的场景，QPILOTS 有望降低部署成本，同时保持策略的泛化能力。

QPILOTS：流策略的高效测试时Q引导方法

延伸阅读

相关资讯