SheepNav
精选今天0 投票

AURA:恒定显存占用下的机器人策略动作门控记忆

机器人记忆的“瘦身革命”:AURA 如何用 4KB 内存替代数 GB 缓存?

在大语言模型(LLM)席卷数据中心的同时,机器人领域正面临一个截然不同的记忆挑战。最新研究论文 AURA: Action-Gated Memory for Robot Policies at Constant VRAM 直指核心矛盾:KV-cache 是数据中心的正确记忆,却是机器人的错误记忆

数据中心与机器人:两种完全不同的记忆需求

数据中心推理处理大量短请求,每个请求结束后重置缓存,注意力缓存可以在不同请求间摊销。而具身智能体(机器人)需要在带宽有限的边缘硬件上运行一个长周期、不重置的会话。高带宽内存和闪存稀缺,闪存写入寿命有限,内存写入而非计算可能成为瓶颈约束。

AURA-Mem:恒定大小的循环记忆 + 动作门控

为此,作者提出 AURA-Mem(Action-Utility Recurrent Adaptive Memory),其核心思路是:用恒定大小的循环记忆包装一个冻结的视觉-语言-动作(VLA)骨干网络,并引入一个学习到的门控机制——只有当当前观测会改变下一步动作时,才写入记忆。这是一种“知道何时保持沉默”的记忆。

与基于重建的记忆不同,该门控直接通过闭环动作误差信号进行训练。其推理状态固定为 4,224 字节(约 4KB),无论时间跨度多长。相比之下,KV-cache 在 10 万步时膨胀至 6,061 倍(约 25MB),差距惊人。

实验表现:少写入,高精度

在受控合成基准测试中,AURA-Mem 在精度上与最佳 O(1) 基线持平,但写入次数减少 5.19 到 6.13 倍,在简单配置下最高减少 9.19 倍。预算匹配的随机和周期性调度无法复现这一增益,证明效益来自动作意外信号

在封闭循环的 OpenVLA-OFT 7B 模型上(LIBERO-Long 基准,每机械臂 60 个回合),门控并未损害成功率:AURA-Mem 与无门控基线(0.233)持平,略优于始终写入的 KV 版本(0.217),同时写入次数减少 7.0 倍,内存恒定。

意义与局限

这项研究为边缘机器人部署提供了新思路:通过智能门控机制,在几乎不损失性能的前提下大幅降低内存和写入开销。不过作者也坦诚,当前规模下的近似信息状态价值损失界限是空洞的,而非保证。未来工作需在更大模型和更复杂任务上验证其可扩展性。

对于寻求在 Jetson、树莓派等低功耗设备上运行复杂 VLA 策略的开发者而言,AURA 可能是一个值得关注的技术方向。

延伸阅读

  1. 想过头了:大型推理模型在答对后继续推理反而有害
  2. 碰撞驱动:三种新方法探索游戏敌人形态的自动生成
  3. Traj-Evolve:自我进化的多智能体系统,助力肺癌早期筛查中的患者轨迹建模
查看原文