联邦强化学习新突破：个性化观测归一化应对环境异质性

联邦强化学习（FedRL）允许多个智能体在不共享原始数据的前提下协作训练全局策略，在隐私敏感应用中极具潜力。然而，当各智能体所处环境存在异质性（即状态转移动力学不同）时，输入分布不一致会导致聚合阶段参数更新失衡，严重影响训练效率与最终性能。

近日，来自南达科他州立大学的研究团队在 arXiv 上提交了一篇被 IJCNN 2025 接收的论文，提出了一种**个性化观测归一化（Personalized Observation Normalization, PON）**方法，旨在解决上述难题。

核心思路：局部归一化，个性化统计

传统 FedRL 通常对所有智能体采用全局共享的观测归一化参数，但在异质环境下，不同智能体的状态空间分布差异显著，共享参数反而会引入偏差。PON 的核心理念是：每个智能体在本地维护并持续更新自身的运行均值和方差，对原始状态输入进行独立归一化。这样一来，本地特征尺度得到统一，聚合时各智能体的更新梯度不会因输入分布差异而被相互掩盖。

研究明确指出，共享归一化参数在异质环境下是无效的，因为不同智能体的局部输入分布差异巨大，统一归一化无法适配所有客户端。个性化统计量的必要性由此凸显。

实验验证：MuJoCo 任务中的显著提升

团队在异质 MuJoCo 仿真环境中设计了多项连续控制任务进行验证。实验结果表明，与基线方法（如无归一化、全局共享归一化等）相比，PON 方法在训练速度和最终累积奖励上均取得了显著优势。具体而言，PON 能够更快地收敛到更优策略，且在不同异质程度下均保持鲁棒性。

行业意义与展望

联邦强化学习在机器人协作、自动驾驶、工业控制等分布式场景中具有广阔前景，但环境异质性一直是实际部署的主要障碍。PON 方法通过轻量级的本地归一化设计，无需额外通信开销，即可有效缓解异质性问题。这一思路也为后续研究提供了重要参考：个性化统计与联邦聚合的协同设计，或将成为 FedRL 走向实用的关键方向。

论文已被 IJCNN 2025 接收，感兴趣的读者可前往 arXiv 获取全文。

联邦强化学习新突破：个性化观测归一化方法应对环境异质性

核心思路：局部归一化，个性化统计

实验验证：MuJoCo 任务中的显著提升

行业意义与展望

延伸阅读

相关资讯