C-DSAC：Cramér距离驱动分布强化学习新方法

强化学习领域迎来一项新突破。来自马德里理工大学等机构的研究人员提出了一种基于Cramér距离的分布强化学习算法——C-DSAC（Cramér-based Distributional Soft Actor-Critic），并在多个机器人基准测试中展现出超越传统SAC（Soft Actor-Critic）及同类分布方法的性能。相关论文已提交至arXiv预印本平台（arXiv:2605.08104）。

核心创新：用Cramér距离优化价值分布

传统强化学习通常以期望值衡量状态-动作价值，而分布强化学习则更进一步，将价值表示为一个完整的概率分布。C-DSAC的核心创新在于：

采用Cramér距离（而非常见的KL散度或Wasserstein距离）作为分布学习的损失函数，最小化预测分布与目标分布之间的平方Cramér距离。
这一选择使得算法在高复杂度环境中优势尤为明显。实验表明，随着任务难度提升，C-DSAC的性能提升幅度显著增大。

机制揭秘：置信度驱动的Q值更新

研究团队还深入分析了C-DSAC高效的原因，揭示了一种置信度驱动的更新机制：

当目标分布具有高方差（即模型对目标置信度较低）时，算法会采取更保守的模型更新，从而抑制过估计值的影响。
这种自适应调节避免了传统强化学习中因Q值过高估计导致的策略崩溃问题，使得学习过程更稳定、收敛更可靠。

实验表现：全面超越基线

在多个机器人控制基准（如MuJoCo环境）中，C-DSAC均表现出色：

相比标准SAC，C-DSAC在几乎所有任务上获得了更高的累计奖励。
与现有分布强化学习方法（如DSAC、IQN等）相比，C-DSAC同样具有优势，且性能差距随环境复杂度增加而扩大。

行业意义：为复杂决策场景提供新思路

分布强化学习近年来备受关注，尤其在机器人操控、自动驾驶等需要精细控制的高维连续动作空间领域。C-DSAC通过引入Cramér距离和置信度驱动更新，不仅提升了性能，还从理论上深化了对分布强化学习收敛机制的理解。该工作为后续研究提供了新的分析框架，有望推动强化学习在更复杂、更不确定的现实场景中落地。

论文地址：https://arxiv.org/abs/2605.08104

Cramér距离驱动：分布强化学习新方法C-DSAC性能超越SAC

核心创新：用Cramér距离优化价值分布

机制揭秘：置信度驱动的Q值更新

实验表现：全面超越基线

行业意义：为复杂决策场景提供新思路

延伸阅读

相关资讯