SheepNav
新上线今天0 投票

好奇心批评家:将累积预测误差改进作为世界模型训练的可处理内在奖励

在强化学习领域,智能体如何高效探索未知环境一直是个核心挑战。传统基于预测误差的好奇心奖励机制通常只关注当前状态转移的预测误差,忽略了世界模型在整个学习过程中的累积表现。近日,研究人员提出了一种名为 Curiosity-Critic 的新方法,将内在奖励建立在累积预测误差的改进上,并证明其可简化为一种易于处理的单步形式。

核心创新:从局部误差到累积改进

Curiosity-Critic 的核心思想是:智能体不应仅仅因为当前状态难以预测而获得奖励,而应因为其探索行为整体上提升了世界模型的预测能力而获得奖励。具体而言,其内在奖励被定义为当前预测误差与当前状态转移的渐近误差基线之间的差值。

这个渐近误差基线是关键。它代表了在当前状态下,即使经过无限次访问和训练,世界模型所能达到的最佳(或稳定)预测误差水平。如果当前预测误差远高于这个基线,说明这个状态转移还有很大的学习空间(可减少的认知误差);如果误差已经接近基线,则说明剩余的误差很可能是环境固有的随机性(不可减少的偶然误差)。

技术实现:在线学习批评家

为了在线估计这个渐近误差基线,研究人员引入了一个与世界模型协同训练的“批评家”网络。这个批评家只回归一个标量值(即基线),其训练目标独立于世界模型。论文指出,批评家网络通常在世界模型达到饱和之前就已收敛,这使得它能够有效地引导探索方向。

  • 奖励机制:对于“可学习”的状态转移(即认知误差占主导),当前预测误差高,奖励也高,鼓励智能体继续探索。
  • 抑制机制:对于高度随机的状态转移(即偶然误差占主导),奖励会迅速坍缩至基线附近,避免智能体在无法获得知识的区域浪费探索资源。

这种方法实现了在线分离认知误差与偶然误差,这是许多现有好奇心方法面临的难题。

理论统一与实验验证

论文从理论层面展示了,从 Schmidhuber(1991)的经典工作到现代基于学习特征空间的变体,许多先前的预测误差好奇心公式,都可以被视为对 Curiosity-Critic 中渐近误差基线的特定近似。这为理解不同好奇心机制提供了一个统一的视角。

在实验部分,研究团队在一个随机网格世界环境中进行了测试。结果显示,与基于预测误差和基于访问计数的基线方法相比,Curiosity-Critic 在世界模型的收敛速度和最终预测精度方面都表现更优。这表明,关注累积改进而非瞬时误差,能更有效地指导探索,从而学到更准确的环境模型。

意义与展望

Curiosity-Critic 的提出,标志着内在动机研究从启发式设计向更严谨的优化目标迈进了一步。它将探索奖励与模型学习的根本目标——最小化长期预测误差——直接挂钩。这种方法不仅提升了样本效率,其分离认知与偶然误差的能力也对在复杂、噪声现实环境中的应用具有潜在价值。

未来,如何将这一框架扩展到更高维、更复杂的视觉输入环境,以及如何与更强大的世界模型架构(如 Transformer 等)结合,将是值得关注的方向。

延伸阅读

  1. 编译即压缩:利用编译器输出提升形式化定理证明器性能
  2. “简单样本”就够了:EasyRL 通过数据高效强化学习实现大语言模型自我进化
  3. FASE:公平感知时空事件图框架,为预测性警务注入公平性
查看原文