HyMEM：GUI智能体新记忆架构，小模型性能超越GPT-4o

随着视觉语言模型（VLMs）的飞速发展，GUI智能体已经能够以类人的方式与计算机交互。然而，现实世界中的计算机使用任务——如长流程工作流、多样化的界面以及频繁的中间错误——仍然充满挑战。以往的研究尝试为智能体配备基于大量操作轨迹构建的外部记忆，但这些方法通常依赖于对离散摘要或连续嵌入的扁平化检索，未能实现人类记忆所具备的结构化组织与自我演进特性。

HyMEM：受大脑启发的记忆架构

为了突破这一瓶颈，研究团队提出了Hybrid Self-evolving Structured Memory。这是一种基于图结构的记忆系统，其核心创新在于将离散的高层符号节点与连续的操作轨迹嵌入相结合。这种混合设计旨在模仿人类大脑中不同记忆系统协同工作的方式，为智能体提供更强大、更灵活的记忆能力。

三大核心能力

HyMEM并非一个静态的知识库，而是一个动态演进的系统，它具备以下关键能力：

多跳检索：得益于其图结构，智能体能够进行复杂的、多步骤的推理和信息关联，而不仅仅是简单的关键词匹配。
自我演进：系统可以通过节点更新操作，在运行过程中不断学习和整合新的经验，使记忆内容随时间优化。
即时工作记忆刷新：在执行任务时，系统能够动态地刷新和调用相关记忆片段，以应对复杂的、多步骤的GUI操作流程。

显著的性能提升

实验结果表明，HyMEM能够持续提升开源GUI智能体的性能。尤为引人注目的是，它使得参数量仅为7B/8B的模型骨干，其表现能够匹配甚至超越一些强大的闭源模型。具体而言：

它将Qwen2.5-VL-7B模型的性能提升了**+22.5%**。
在综合表现上，搭载HyMEM的系统甚至超越了Gemini2.5-Pro-Vision和GPT-4o等业界领先的闭源模型。

这一突破意味着，通过更高效的记忆架构，较小规模的模型也能在复杂的GUI任务中展现出强大的竞争力，为降低AI应用的计算成本和门槛提供了新的思路。

对AI行业的意义

HyMEM的研究指向了AI代理发展的一个关键方向：超越单纯的模型规模竞赛，转向更精巧的架构与系统设计。在追求通用人工智能的道路上，如何让AI系统具备长期、结构化且能自主演进的世界知识，是核心挑战之一。这项工作将记忆机制从简单的“存储-检索”提升到了“组织-演进-推理”的层面，不仅对GUI自动化领域有直接推动作用，其“图结构+混合表征+自演进”的设计理念，也可能为更广泛的具身智能、机器人任务规划等需要复杂记忆与推理的场景带来启发。它标志着AI代理正从执行单一指令，向能够管理复杂、长期任务的“数字员工”迈进了一步。

HyMEM：为GUI智能体打造的混合自演进结构化记忆系统

延伸阅读

相关资讯