联邦强化学习新突破:个性化观测归一化方法应对环境异质性
联邦强化学习(FedRL)允许多个智能体在不共享原始数据的前提下协作训练全局策略,在隐私敏感应用中极具潜力。然而,当各智能体所处环境存在异质性(即状态转移动力学不同)时,输入分布不一致会导致聚合阶段参数更新失衡,严重影响训练效率与最终性能。
近日,来自南达科他州立大学的研究团队在 arXiv 上提交了一篇被 IJCNN 2025 接收的论文,提出了一种**个性化观测归一化(Personalized Observation Normalization, PON)**方法,旨在解决上述难题。
核心思路:局部归一化,个性化统计
传统 FedRL 通常对所有智能体采用全局共享的观测归一化参数,但在异质环境下,不同智能体的状态空间分布差异显著,共享参数反而会引入偏差。PON 的核心理念是:每个智能体在本地维护并持续更新自身的运行均值和方差,对原始状态输入进行独立归一化。这样一来,本地特征尺度得到统一,聚合时各智能体的更新梯度不会因输入分布差异而被相互掩盖。
研究明确指出,共享归一化参数在异质环境下是无效的,因为不同智能体的局部输入分布差异巨大,统一归一化无法适配所有客户端。个性化统计量的必要性由此凸显。
实验验证:MuJoCo 任务中的显著提升
团队在异质 MuJoCo 仿真环境中设计了多项连续控制任务进行验证。实验结果表明,与基线方法(如无归一化、全局共享归一化等)相比,PON 方法在训练速度和最终累积奖励上均取得了显著优势。具体而言,PON 能够更快地收敛到更优策略,且在不同异质程度下均保持鲁棒性。
行业意义与展望
联邦强化学习在机器人协作、自动驾驶、工业控制等分布式场景中具有广阔前景,但环境异质性一直是实际部署的主要障碍。PON 方法通过轻量级的本地归一化设计,无需额外通信开销,即可有效缓解异质性问题。这一思路也为后续研究提供了重要参考:个性化统计与联邦聚合的协同设计,或将成为 FedRL 走向实用的关键方向。
论文已被 IJCNN 2025 接收,感兴趣的读者可前往 arXiv 获取全文。