SheepNav
新上线今天0 投票

联邦强化学习新突破:个性化观测归一化方法应对环境异质性

联邦强化学习(FedRL)允许多个智能体在不共享原始数据的前提下协作训练全局策略,在隐私敏感应用中极具潜力。然而,当各智能体所处环境存在异质性(即状态转移动力学不同)时,输入分布不一致会导致聚合阶段参数更新失衡,严重影响训练效率与最终性能。

近日,来自南达科他州立大学的研究团队在 arXiv 上提交了一篇被 IJCNN 2025 接收的论文,提出了一种**个性化观测归一化(Personalized Observation Normalization, PON)**方法,旨在解决上述难题。

核心思路:局部归一化,个性化统计

传统 FedRL 通常对所有智能体采用全局共享的观测归一化参数,但在异质环境下,不同智能体的状态空间分布差异显著,共享参数反而会引入偏差。PON 的核心理念是:每个智能体在本地维护并持续更新自身的运行均值和方差,对原始状态输入进行独立归一化。这样一来,本地特征尺度得到统一,聚合时各智能体的更新梯度不会因输入分布差异而被相互掩盖。

研究明确指出,共享归一化参数在异质环境下是无效的,因为不同智能体的局部输入分布差异巨大,统一归一化无法适配所有客户端。个性化统计量的必要性由此凸显。

实验验证:MuJoCo 任务中的显著提升

团队在异质 MuJoCo 仿真环境中设计了多项连续控制任务进行验证。实验结果表明,与基线方法(如无归一化、全局共享归一化等)相比,PON 方法在训练速度最终累积奖励上均取得了显著优势。具体而言,PON 能够更快地收敛到更优策略,且在不同异质程度下均保持鲁棒性。

行业意义与展望

联邦强化学习在机器人协作、自动驾驶、工业控制等分布式场景中具有广阔前景,但环境异质性一直是实际部署的主要障碍。PON 方法通过轻量级的本地归一化设计,无需额外通信开销,即可有效缓解异质性问题。这一思路也为后续研究提供了重要参考:个性化统计与联邦聚合的协同设计,或将成为 FedRL 走向实用的关键方向。

论文已被 IJCNN 2025 接收,感兴趣的读者可前往 arXiv 获取全文。

延伸阅读

  1. IGADA-IoT:自动数据增强驱动的无线传感器网络IoT传感器能耗优化
  2. 简单状态空间模型在多变量时间序列分类中表现卓越
  3. E³-Agent:面向边缘生成式推理的可执行与进化式资源管理智能体
查看原文