MemQ：用Q学习优化LLM智能体的记忆系统

大型语言模型（LLM）智能体在复杂任务中常依赖情景记忆来积累和检索经验。然而，现有方法将每条记忆视为独立个体，孤立评估其检索质量，忽略了记忆之间的依赖链条——正是这些链条使得一条记忆能够催生后续记忆。这种“原子化”处理方式导致智能体难以理解哪些记忆真正对长期目标有价值。

针对这一缺陷，来自多所高校和机构的研究团队提出 MemQ，将强化学习中的Q学习引入记忆系统，并通过溯源有向无环图（DAG） 来追踪记忆间的因果关系。

核心创新：从时间距离到结构距离

MemQ 的核心思想是：当一条记忆被检索并用于生成新记忆时，该检索行为应当获得“信用”。研究者采用 TD(λ) 资格迹 算法，将奖励信号沿溯源 DAG 反向传播。具体而言，信用权重按 $(\gamma\lambda)^d$ 衰减，其中 $d$ 是 DAG 中的深度——即记忆之间的结构距离，而非传统的时间距离。这意味着，即使某条记忆在时间上很“老”，只要它在 DAG 中处于关键路径上，就能获得较高的信用分配。

理论框架：外生上下文MDP

为了形式化描述这一过程，论文提出了 外生上下文马尔可夫决策过程（EC-MDP）。该模型将任务流（外生上下文）与记忆存储（内生状态）解耦，使得智能体可以在不断变化的任务中持续学习，而无需重新训练。这一框架为记忆系统的在线学习提供了坚实的数学基础。

实验结果：全面领先，深度链条优势显著

研究团队在 六个基准测试 中评估了 MemQ，涵盖操作系统交互、函数调用、代码生成、多模态推理、具身推理以及专家级问答。结果显示：

MemQ 在 所有六个任务 的泛化评估和运行时学习中都取得了最高成功率。
在需要深度溯源链条的多步骤任务中，增益最为显著（最高提升 +5.7 个百分点），例如在需要多步操作的 OS 交互和具身推理任务中。
在单步分类任务中，由于单步更新已足够，增益较小（仅 +0.77 个百分点），这恰好验证了 MemQ 在复杂依赖场景中的价值。

参数分析与未来展望

论文还深入研究了折扣因子 $\gamma$ 和资格迹衰减率 $\lambda$ 在 EC-MDP 结构中的相互作用，为实际应用中的参数选择提供了原则性指导。代码即将开源。

MemQ 的提出标志着 LLM 智能体记忆系统从“独立存储”向“结构化信用分配”迈出了重要一步。通过将强化学习中的经典算法与图结构相结合，它使得智能体能够在复杂任务中更高效地“从经验中学习”，有望推动自主智能体在现实场景中的落地应用。

MemQ：将Q学习融入基于溯源DAG的自演化记忆智能体

核心创新：从时间距离到结构距离

理论框架：外生上下文MDP

实验结果：全面领先，深度链条优势显著

参数分析与未来展望

延伸阅读

相关资讯