离线强化学习RL4F：核聚变等离子体控制基准与代码库

核聚变被视为清洁能源的终极解决方案，但实现可控核聚变需要精确控制上亿度的等离子体。传统方法依赖在线试错，成本高昂且风险极大。离线强化学习（Offline RL）为利用历史托卡马克数据开发控制器提供了新思路，然而该领域长期缺乏标准化基准。近日，来自卡内基梅隆大学等机构的研究团队发布了 RL4F——首个面向核聚变等离子体控制的离线强化学习基准与代码库，填补了这一空白。

从历史数据中学习控制策略

RL4F 的核心是基于 DIII-D 托卡马克装置的历史放电数据构建的动力学模型。DIII-D 是美国通用原子能公司运营的现役托卡马克，其运行数据真实反映了多执行器、长时域等离子体控制的复杂性。研究团队利用这些数据训练了一个环境模拟器，使得算法可以在不接触真实装置的情况下进行训练和评估。

基准测试覆盖了四个完整的等离子体剖面跟踪任务：旋转、密度、温度和压力。这些任务代表了等离子体控制中最关键的控制目标，且彼此耦合，对控制算法的长时域决策能力提出了极高要求。

全面评估：模型方法领先，但无万能解

研究团队在统一协议下测试了多种离线强化学习和模仿学习基线方法。结果显示，基于模型的离线强化学习方法在多数任务上取得了最佳平均性能，这表明在复杂的长时域控制问题中，对系统动力学的准确建模至关重要。然而，没有任何一种方法在所有任务上独占鳌头——例如，在某些密度控制任务中，简单的行为克隆反而表现更好。这一发现揭示了等离子体控制场景的多样性，也为算法设计者提供了明确的挑战。

开源生态：加速聚变与RL交叉研究

为了推动核聚变与强化学习两个领域的交叉发展，团队已将 RL4F 的代码、数据集和评估框架全部开源。这不仅为聚变研究人员提供了现成的算法测试平台，也为离线强化学习社区带来了一个具有真实物理约束的复杂基准——其多执行器、长时域、高维状态空间的特点，远超市面上许多玩具环境。

行业意义与未来展望

RL4F 的发布标志着离线强化学习从游戏、机器人等传统领域向关键工业应用迈出了坚实一步。如果离线RL能够有效利用历史数据生成可靠的等离子体控制器，将极大降低聚变装置的调试成本，加速聚变能商业化进程。未来，团队计划引入更多托卡马克数据源，并探索多任务迁移学习，以提升算法的泛化能力。

对于AI研究者而言，RL4F 提供了一个不可多得的“硬核”基准——它考验的不是模型在虚拟世界中的花哨能力，而是解决真实物理约束下高可靠性控制问题的真正实力。

离线强化学习攻克核聚变等离子体控制：RL4F基准测试与开源代码库发布

从历史数据中学习控制策略

全面评估：模型方法领先，但无万能解

开源生态：加速聚变与RL交叉研究

行业意义与未来展望

延伸阅读

相关资讯