嵌入模型路由中的策略遗憾:低秩专家情境下的上下文赌博机问题
现代推荐系统日益依赖动态路由机制,将多样化的查询分发给多个嵌入模型。然而,在对抗性查询、赌博机反馈以及模型可观测性有限等现实条件下,这一问题的理论基础仍十分薄弱。近日,一篇发表于 arXiv 的论文《Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts》对此进行了系统性的数学建模与分析。
问题形式化
研究者将嵌入模型路由问题形式化为低秩专家参与的对抗性上下文线性赌博机:上下文对应查询,动作对应推荐项,而专家则是工作在低秩隐空间上的嵌入模型。这种设置更贴近实际场景——查询可能被恶意构造,反馈仅限点击等二元信号,且模型内部参数不可见。
核心发现
论文首先指出,标准的遗憾定义(如累积遗憾)在此场景下存在结构性错配或统计不可解的问题。为此,作者提出了一类对数二次策略类(log-quadratic policy class),该策略类既能表达查询相关的模型路由决策,又保留了高效在线学习的结构特性。
在此基础上,研究者提出了名为 Hypentropy Policy Gradient (HPG) 的策略梯度算法。该算法能在信息不完全的情况下自适应地学习未知的低秩结构,并达到 $\tilde{\mathcal O}(s\sqrt{M T})$ 的线性化策略遗憾界,其中 $s$ 为专家的本征秩,$M$ 为模型数量,$T$ 为轮次。这一结果避免了维度灾难,理论上优于现有方法。
实际意义
论文还提供了计算高效且无需手动调参的 HPG 实现方案。这意味着该算法不仅具有理论保证,还具备实际部署的可行性。
行业背景
当前,大型推荐系统通常维护数十甚至上百个嵌入模型,分别针对不同领域或任务。如何根据实时查询动态选择最合适的模型,是提升推荐效果与计算效率的关键。本工作将这一工程问题提升到严谨的数学层面,为后续研究奠定了理论基础。
小结
本研究通过引入低秩专家和对抗性上下文赌博机框架,为嵌入模型路由提供了首个具有遗憾保证的在线学习算法。其理论贡献与实用实现,有望推动推荐系统在更复杂环境下的稳健运行。