监督式强化学习框架赋能分布式能源协调

随着分布式能源（DER）在电力系统脱碳中扮演越来越重要的角色，如何有效协调这些资源成为关键挑战。DER 固有的不确定性和建模复杂性，使得传统优化方法力不从心。强化学习（RL）虽被视为有前景的替代方案，但标准 RL 方法存在样本效率低、从零训练效果欠佳等痛点。

受大语言模型训练范式的启发，研究人员提出了一种监督式强化学习（SRL）框架，用于学习 DER 协调策略。该框架首先在演示数据上以监督学习方式预训练策略，然后使用 RL 进行微调。具体而言，微调分为两步：离线微调以提升策略性能，在线微调以使其适应真实世界动态。

实验表明，基于该框架的 RL 实现显著优于所有基线，即使在低质量演示数据下也能实现高成本效益。该研究为 DER 管理提供了全新思路，有望推动可再生能源的高效整合。

受大语言模型启发：监督式强化学习框架赋能分布式能源协调