SheepNav
精选今天0 投票

不确定性感知与时间调控的专家建议:让自动驾驶强化学习更安全

强化学习(RL)是自动驾驶决策训练的核心技术之一,但其“探索”天性始终与安全相悖——智能体必须尝试新行为才能学习,而这些尝试往往导致碰撞或驶离道路。近日,来自德国卡尔斯鲁厄理工学院(KIT)的研究团队在 arXiv 上提交了一篇新论文(arXiv:2605.30576),提出一种不确定性感知框架,通过智能触发专家建议来引导探索,同时避免智能体对专家产生长期依赖,从而在安全与学习效率之间取得平衡。该工作已被 IEEE 智能交通系统国际会议(ITSC 2026) 接收。

核心思路:用不确定性量化决定何时求助

传统方法要么直接模仿专家轨迹(行为克隆),要么完全让智能体自由探索。前者导致智能体无法处理未见场景,后者则代价高昂。该框架的关键在于自适应触发机制

  • 同时监测两种不确定性——认知不确定性(epistemic,模型知识不足)和偶然不确定性(aleatoric,环境随机性);
  • 使用滚动缓冲区(rolling buffer) 动态计算自适应阈值,当任一不确定性超过阈值时,系统才会引入专家建议;
  • 随着智能体置信度提升,阈值自动调整,触发频率逐渐降低,避免过度依赖。

调控策略:让“辅导”既连贯又节约

即使触发专家介入,如何控制干预的时长和频率?研究团队设计了承诺-冷却(commitment-cooldown)策略,配合随机早停启发式方法:

  1. 承诺阶段:一旦触发,专家连续提供多步建议,确保智能体执行完整且连贯的驾驶机动(如一次变道或转弯);
  2. 冷却阶段:建议结束后进入冷却期,强制智能体独立决策,防止专家“代劳”过多;
  3. 早停机制:通过随机判断提前终止专家建议,进一步节约专家预算,并增加智能体自主决策的机会。

这种设计让智能体既能体验专家示范的完整动作序列,又不会对建议产生依赖。

技术实现:离线策略下的经验复用

框架基于离线策略隐式分位数网络(IQN) 作为强化学习骨干。专家轨迹与智能体自身经验被混合存入共享经验回放缓冲区,实现高效重用。这种设计允许智能体在离线策略设置下学习,不必完全依赖在线交互数据。

实验结果:CARLA 仿真中成功率提升 5-7%

研究团队在自动驾驶仿真平台 CARLA 上,针对无信号灯交叉口导航场景进行了测试。结果表明:

  • 相比标准 IQN 基线,所提方法在成功率上提升 5-7%
  • 碰撞、驶离道路等故障率显著降低
  • 不确定性感知机制有效区分了“需要帮助”和“可以独立”的场景,避免了不必要的专家调用。

行业背景与意义

自动驾驶的强化学习研究长期面临“安全探索”困境。传统方法如奖励塑形、安全约束优化等各有局限。该工作的价值在于:

  • 不确定性量化专家建议触发结合,形成闭环调控;
  • 不依赖外部安全监控器,而是让智能体自己判断何时求助;
  • 模块化设计可兼容多种 RL 算法,具备通用性。

当然,当前实验仅在仿真环境进行,真实道路的感知噪声、动态交通流等复杂性尚未纳入。但该思路为安全强化学习提供了一条务实路径:与其强制约束探索,不如让智能体学会“知难而退,适时求教”。

小结

这项工作将不确定性感知、自适应阈值和时序调控策略融为一体,在自动驾驶强化学习的探索安全问题上迈出了实质性一步。随着后续在更复杂场景和真实硬件上的验证,这种“智能求助”范式或将成为自动驾驶训练流程的标准组件。

延伸阅读

  1. 结构诱导信息助力重根列文树搜索:隐式子任务分解的新范式
  2. EHRBench:基于电子健康记录的大模型临床决策能力自动化评估基准
  3. MAP-Elites 助力 FPS 地图程序化生成:新表征带来更高多样性与质量
查看原文