SheepNav
精选今天0 投票

MemQ:将Q学习融入基于溯源DAG的自演化记忆智能体

大型语言模型(LLM)智能体在复杂任务中常依赖情景记忆来积累和检索经验。然而,现有方法将每条记忆视为独立个体,孤立评估其检索质量,忽略了记忆之间的依赖链条——正是这些链条使得一条记忆能够催生后续记忆。这种“原子化”处理方式导致智能体难以理解哪些记忆真正对长期目标有价值。

针对这一缺陷,来自多所高校和机构的研究团队提出 MemQ,将强化学习中的Q学习引入记忆系统,并通过溯源有向无环图(DAG) 来追踪记忆间的因果关系。

核心创新:从时间距离到结构距离

MemQ 的核心思想是:当一条记忆被检索并用于生成新记忆时,该检索行为应当获得“信用”。研究者采用 TD(λ) 资格迹 算法,将奖励信号沿溯源 DAG 反向传播。具体而言,信用权重按 $(\gamma\lambda)^d$ 衰减,其中 $d$ 是 DAG 中的深度——即记忆之间的结构距离,而非传统的时间距离。这意味着,即使某条记忆在时间上很“老”,只要它在 DAG 中处于关键路径上,就能获得较高的信用分配。

理论框架:外生上下文MDP

为了形式化描述这一过程,论文提出了 外生上下文马尔可夫决策过程(EC-MDP)。该模型将任务流(外生上下文)与记忆存储(内生状态)解耦,使得智能体可以在不断变化的任务中持续学习,而无需重新训练。这一框架为记忆系统的在线学习提供了坚实的数学基础。

实验结果:全面领先,深度链条优势显著

研究团队在 六个基准测试 中评估了 MemQ,涵盖操作系统交互、函数调用、代码生成、多模态推理、具身推理以及专家级问答。结果显示:

  • MemQ 在 所有六个任务 的泛化评估和运行时学习中都取得了最高成功率。
  • 在需要深度溯源链条的多步骤任务中,增益最为显著(最高提升 +5.7 个百分点),例如在需要多步操作的 OS 交互和具身推理任务中。
  • 单步分类任务中,由于单步更新已足够,增益较小(仅 +0.77 个百分点),这恰好验证了 MemQ 在复杂依赖场景中的价值。

参数分析与未来展望

论文还深入研究了折扣因子 $\gamma$ 和资格迹衰减率 $\lambda$ 在 EC-MDP 结构中的相互作用,为实际应用中的参数选择提供了原则性指导。代码即将开源。

MemQ 的提出标志着 LLM 智能体记忆系统从“独立存储”向“结构化信用分配”迈出了重要一步。通过将强化学习中的经典算法与图结构相结合,它使得智能体能够在复杂任务中更高效地“从经验中学习”,有望推动自主智能体在现实场景中的落地应用。

延伸阅读

  1. PLACO:一种面向人机协同的成本效益多阶段框架
  2. SkillLens:自适应多粒度技能复用,让LLM智能体更高效
  3. 区分后训练中的能力激发与能力创造:自由能视角
查看原文