行为感知辅助修正：离线策略TD学习新突破

强化学习中，离线策略（off-policy）采样下的时序差分（TD）学习常因函数近似而出现不稳定。经典算法 TDC 通过辅助协方差修正来稳定学习，而 TDRC 进一步在单时间尺度递归中正则化该修正。近日，一篇发表于 arXiv 的最新研究提出了一种行为感知（behavior-aware） 的改进方案，旨在替换 TDC/TDRC 中的辅助协方差矩阵，从而提升学习稳定性与收敛性能。

核心创新：行为感知矩阵替换

研究团队首先将 TDC 中的辅助矩阵 C（特征协方差矩阵）替换为行为贝尔曼矩阵 A_μ，得到新算法 BA-TDC。随后，他们在同一行为感知方程上施加正则化，得到 BA-TDRC。这种两步构建法将行为感知几何的贡献与正则化的贡献分离开来，为理解算法设计提供了清晰视角。

在线性预测设置下（分析价值函数近似特征空间动力学的标准局部模型），作者给出了有限状态均值系统公式，证明了在均值系统满足 Hurwitz 稳定性条件下的不动点保持和几乎必然收敛性质。他们还通过精确线性误差递归的谱半径比较了确定性均值收敛速率。

实验验证与关键发现

实验在四个经典基准上展开：双状态反例、Baird 反例、随机游走和 Boyan Chain。结果表明：

行为感知替换本身在某些任务上效果显著，例如在双状态反例中收敛更快且更稳定；
但在更困难的场景（如 Baird 反例）中，正则化是必须的，BA-TDRC 的综合表现优于 BA-TDC 和原始 TDC/TDRC。

行业背景与意义

该工作回应了深度强化学习中一个关键问题：当使用神经网络进行价值近似时，特征协方差与时间转移矩阵如何共同影响最后一层修正动力学？传统 TDC 使用普通协方差矩阵，而本文证明行为感知矩阵能更准确地捕捉策略差异带来的几何结构。这一思路可能为深度离线策略算法的稳定性设计提供新工具，尤其是在需要高效利用历史数据的场景中。

局限与展望

当前工作限于线性函数近似与有限状态空间，其在非线性神经网络中的推广仍有待验证。不过，作者提供的理论框架（均值系统分析与谱半径比较）为后续研究奠定了分析基础。未来，行为感知辅助修正有望与其他正则化技术（如梯度截断、目标网络）结合，在更复杂的连续控制任务中发挥价值。

行为感知辅助修正：离线策略时序差分学习的新进展

核心创新：行为感知矩阵替换

实验验证与关键发现

行业背景与意义

局限与展望

延伸阅读

相关资讯