行为诱导镜像近端TD学习：加速离策略预测新方法

强化学习中的离策略预测（off-policy prediction）一直是核心挑战之一，尤其是在使用线性函数逼近时。传统梯度时序差分（GTD）方法虽能保证稳定性，但其收敛速度严重依赖于辅助变量度量（metric）所定义的几何结构。近日，一篇发表于 arXiv 的新论文（arXiv:2605.28849）提出了一种名为 STHTD-MP 的行为诱导镜像近端时序差分方法，通过引入行为策略的转移信息来优化更新几何，从而显著加速收敛。

从协方差度量到行为诱导度量

现有 Mirror-Prox TD 方法（如 GTD2-MP）通常采用特征协方差矩阵作为度量，而混合 TD 方法（hybrid TD）的研究表明，行为策略的转移信息能提供更丰富的更新几何。论文作者将这一洞察形式化：在原始-对偶鞍点公式中，用行为策略 Bellman 矩阵的对称部分替换协方差度量。这一改动使得优化过程的几何结构更贴合实际任务中的动态特性。

算法设计与理论分析

STHTD-MP 的核心创新在于三点：

单一学习率：对原始变量和辅助变量使用统一的学习率，简化了超参数调节。
Mirror-Prox 预测-校正步骤：应用于混合鞍点算子，增强了算法的稳定性。
行为诱导度量：确保度量矩阵正定，为收敛性奠定基础。

作者在标准随机逼近假设下给出了严格的收敛证明：联合均值系统是 Hurwitz 稳定的，通过李雅普诺夫论证保证有界性，随机递归由 ODE 方法收敛。此外，论文推导了投影-预言机遍历间隙界，并基于确定性 Mirror-Prox 误差矩阵的谱半径进行了与 GTD2-MP 的精确均值算子比较。分析表明，当行为诱导度量改善了鞍点几何时，STHTD-MP 的平均收缩因子可以小于 GTD2-MP，从而更快收敛。

实验验证与边界案例

数值实验在三个基准上验证了理论：

Two-State：简单场景，验证基础性能。
Random Walk：中等规模，展示加速效果。
Boyan Chain：复杂链式结构，检验泛化能力。

精确的数值均值算子分析支持了理论条件。值得注意的是，论文特别指出了 Baird 反例（Baird's counterexample）作为奇异边界情况：在该反例中，严格假设不成立，行为诱导度量的优势无法发挥。这一发现提醒实际应用者需注意方法的前提条件。

行业意义与未来方向

这项研究为强化学习中的离策略预测提供了新的几何视角。相比于依赖固定协方差度量的传统方法，动态利用行为策略信息的思路有望在机器人控制、推荐系统等需要高效样本利用的场景中带来突破。未来工作可拓展至非线性函数逼近和深度强化学习，并探索如何自适应地选择度量。

论文由 Xingguo Chen、Yuchen Shen 等五位作者完成，目前已在 arXiv 公开。对于关注强化学习理论的研究者和工程师，STHTD-MP 提供了一个兼具理论深度与实践潜力的新工具。

行为诱导镜像近端时序差分学习：加速离策略预测的新方法

从协方差度量到行为诱导度量

算法设计与理论分析

实验验证与边界案例

行业意义与未来方向

延伸阅读

相关资讯