Memories.ai 为可穿戴设备与机器人构建视觉记忆层
随着人工智能从数字世界迈向物理世界,一个关键挑战浮出水面:AI 如何像人类一样“记住”所见之物?初创公司 Memories.ai 正致力于解决这一问题,通过与半导体巨头 Nvidia 合作,构建专为可穿戴设备和机器人设计的 视觉记忆模型。
从 Meta 眼镜到独立创业:视觉记忆的灵感来源
Memories.ai 的联合创始人兼 CEO Shawn Shen 和 CTO Ben Zhou 的创业想法,源于他们在 Meta 开发 Ray-Ban 智能眼镜 AI 系统的经历。在构建过程中,他们意识到一个根本性问题:如果用户无法有效检索和回忆眼镜录制的视频数据,这项技术的实际应用价值将大打折扣。他们开始寻找市场上是否已有为 AI 构建视觉记忆解决方案的团队,却发现这一领域尚属空白。于是,他们决定从 Meta 分拆出来,创立 Memories.ai,专门攻克这一难题。
Shen 指出:“AI 在数字世界已经表现出色。但在物理世界呢?AI 驱动的可穿戴设备、机器人同样需要记忆……最终,你需要让 AI 拥有视觉记忆。我们相信这样的未来。”
为何视觉记忆对物理 AI 至关重要?
目前,AI 系统的“记忆”能力仍处于早期阶段,且主要集中于文本领域。例如,OpenAI 在 2024 年为 ChatGPT 引入了记忆过去对话的功能,并在 2025 年进行了优化;Elon Musk 的 xAI 和 Google Gemini 也在过去两年推出了各自的记忆工具。然而,这些进展大多围绕 文本记忆 展开。
Shen 认为,文本记忆虽然结构更清晰、更容易索引,但对于主要通过视觉与物理世界交互的 AI 应用(如机器人、智能眼镜)来说,帮助有限。物理 AI 需要理解并回忆复杂的视觉场景、物体位置、动态变化等,这要求一种能够高效索引和检索视频记录的记忆层。这正是 Memories.ai 瞄准的核心市场。
携手 Nvidia:技术路径与工具
在近日的 Nvidia GTC 大会上,Memories.ai 宣布与 Nvidia 建立合作关系,以加速其视觉记忆技术的开发。具体而言,Memories.ai 将利用 Nvidia 的两项关键工具:
- Cosmos-Reason 2:一个推理视觉语言模型,能够帮助 AI 理解视频内容中的逻辑关系和上下文。
- Metropolis:一个专注于视频搜索和摘要的应用框架,可用于高效处理和分析大量视觉数据。
通过整合这些工具,Memories.ai 旨在构建一个 大规模视觉记忆模型,能够为可穿戴设备和机器人提供类似人类的视觉回忆能力。例如,智能眼镜用户可以快速找回“昨天在公园看到的那只狗”,而服务机器人则能记住家庭环境中物品的常用位置,提升交互效率。
行业背景与未来展望
视觉记忆层的构建,是 AI 向具身智能(Embodied AI)和物理世界渗透的关键一步。随着 AR/VR 设备、自动驾驶、家庭机器人等硬件的普及,对实时、可靠的视觉记忆需求将急剧增长。Memories.ai 的尝试,不仅填补了当前 AI 记忆能力在视觉维度的空白,也可能为下一代人机交互模式奠定基础。
不过,这一领域仍面临诸多挑战,包括视频数据的高效压缩与检索、隐私保护、以及在不同硬件平台上的适配等。Memories.ai 与 Nvidia 的合作,显示了产业界对视觉记忆重要性的认可,但具体技术落地和商业化路径,仍有待观察。
小结
- 核心创新:Memories.ai 专注于为物理 AI(可穿戴设备、机器人)开发视觉记忆模型,区别于当前主流的文本记忆。
- 技术合作:借助 Nvidia 的 Cosmos-Reason 2 和 Metropolis 工具,提升视频内容的索引与推理能力。
- 市场潜力:随着 AI 硬件在物理世界的部署增加,视觉记忆可能成为提升用户体验和功能的关键组件。
- 挑战待解:技术成熟度、数据隐私、跨平台兼容性等实际问题仍需行业共同探索。
Memories.ai 的愿景,是让 AI 真正“看见并记住”,这或许将重新定义我们与智能设备共处的方式。