决策容量阈值导致自博弈强化学习崩溃

一项新研究揭示了自博弈强化学习中的关键阈值：当智能体的决策容量降至零时，系统将不可避免地崩溃。该论文发表于 arXiv，作者通过扑克、矩阵博弈、骰子游戏等多种环境，结合多种学习算法，系统性地证明了这一现象的普遍性。

核心发现

研究发现存在一个结构性阈值：当消除所有具有正到达概率的决策点时，智能体会迅速收敛到一个确定性利用吸引子——一个接近最大损失的固定点。相反，只要保留一个正到达概率的决策点，就能完全防止崩溃。

研究覆盖了多种博弈类型：

所有场景均使用不同强化学习算法（如 Q-learning、策略梯度等）进行验证，结果一致。

崩溃的根源在于约束下的共同适应，而非扰动本身。通过对比冻结基线和固定对手控制实验，研究者确认了这一点。其他关键特性包括：

该结果建立了零到达加权决策容量的尖锐阈值，且严重程度随容量连续变化。这一发现对多智能体强化学习的稳定性具有重要启示，尤其是在自动驾驶、游戏 AI 和机器人协作等对可靠性要求极高的领域。

随着自博弈在 AlphaGo、AlphaStar 等系统中的成功应用，理解其失败模式变得至关重要。该研究为设计更鲁棒的训练算法提供了理论基础，例如通过监控决策容量来预警潜在崩溃。

这项研究揭示了自博弈强化学习中一个此前未知的结构性相变。决策容量从1到0的微小变化，可导致系统从稳定学习转为灾难性失败。未来工作可探索如何主动维护决策容量，或利用该阈值设计早停策略。