新上线今天0 投票
Cramér距离驱动:分布强化学习新方法C-DSAC性能超越SAC
强化学习领域迎来一项新突破。来自马德里理工大学等机构的研究人员提出了一种基于Cramér距离的分布强化学习算法——C-DSAC(Cramér-based Distributional Soft Actor-Critic),并在多个机器人基准测试中展现出超越传统SAC(Soft Actor-Critic)及同类分布方法的性能。相关论文已提交至arXiv预印本平台(arXiv:2605.08104)。
核心创新:用Cramér距离优化价值分布
传统强化学习通常以期望值衡量状态-动作价值,而分布强化学习则更进一步,将价值表示为一个完整的概率分布。C-DSAC的核心创新在于:
- 采用Cramér距离(而非常见的KL散度或Wasserstein距离)作为分布学习的损失函数,最小化预测分布与目标分布之间的平方Cramér距离。
- 这一选择使得算法在高复杂度环境中优势尤为明显。实验表明,随着任务难度提升,C-DSAC的性能提升幅度显著增大。
机制揭秘:置信度驱动的Q值更新
研究团队还深入分析了C-DSAC高效的原因,揭示了一种置信度驱动的更新机制:
- 当目标分布具有高方差(即模型对目标置信度较低)时,算法会采取更保守的模型更新,从而抑制过估计值的影响。
- 这种自适应调节避免了传统强化学习中因Q值过高估计导致的策略崩溃问题,使得学习过程更稳定、收敛更可靠。
实验表现:全面超越基线
在多个机器人控制基准(如MuJoCo环境)中,C-DSAC均表现出色:
- 相比标准SAC,C-DSAC在几乎所有任务上获得了更高的累计奖励。
- 与现有分布强化学习方法(如DSAC、IQN等)相比,C-DSAC同样具有优势,且性能差距随环境复杂度增加而扩大。
行业意义:为复杂决策场景提供新思路
分布强化学习近年来备受关注,尤其在机器人操控、自动驾驶等需要精细控制的高维连续动作空间领域。C-DSAC通过引入Cramér距离和置信度驱动更新,不仅提升了性能,还从理论上深化了对分布强化学习收敛机制的理解。该工作为后续研究提供了新的分析框架,有望推动强化学习在更复杂、更不确定的现实场景中落地。