
波士顿动力机器狗搭载谷歌AI,现已能读取仪表和温度计
谷歌AI赋能机器人,工业巡检迈入新阶段
近日,谷歌DeepMind宣布推出其最新的机器人AI模型Gemini Robotics-ER 1.6,该模型通过与波士顿动力(Boston Dynamics)的合作,显著提升了机器人(如波士顿动力的四足机器人Spot)在工业环境中的“具身推理”能力。其中最引人注目的突破是,机器人现在能够准确读取模拟温度计和压力表,并利用视镜进行视觉检查,这标志着工业自动化巡检迈向了一个更智能、更自主的新阶段。
从“行走”到“看懂”:Spot的新角色
波士顿动力的四足机器人Spot,因其灵活的运动能力和适应性,已被广泛应用于各种工业设施中。过去,Spot主要承担巡逻、数据收集等基础任务。而现在,借助谷歌DeepMind的AI模型,Spot正被试验为一名**“机器人巡检员”**,在工厂和仓库中自主巡视,检查各类设备。
这种巡检任务并非简单的图像识别。它需要复杂的视觉推理能力,以解读仪器上的多个指针、液位、容器边界、刻度标记以及文字信息。例如,一个压力表可能包含多个指针和复杂的刻度,机器人需要准确判断当前读数,这涉及到对视觉信息的深度理解和上下文分析。
核心技术:Gemini Robotics-ER 1.6与“代理视觉”
谷歌DeepMind于4月14日发布的Gemini Robotics-ER 1.6模型,被描述为一个**“机器人的高级推理模型”,能够规划和执行任务。该模型的核心创新在于引入了“代理视觉”**能力,这是一种将视觉推理与代码执行相结合的技术,为机器人创建了一个“视觉草稿本”,用于检查和操作图像。
“代理视觉”最初于2026年1月在谷歌的Gemini 3.0 Flash模型中首次引入。据报道,这一能力显著提升了机器人在仪表读取任务上的表现:
- 在旧版Gemini Robotics-ER 1.5模型中,准确率仅为23%。
- 而在新版Gemini Robotics-ER 1.6模型中,准确率跃升至98%。
作为对比,Gemini 3.0 Flash模型在此类任务上的准确率为67%。即使在没有“代理视觉”的情况下,Gemini Robotics-ER 1.6基线模型仍能达到**86%**的准确率,这得益于模型采用了一种指向图像中不同元素以处理复杂任务(如计数)的过程。
行业背景与未来展望
波士顿动力对测试四足和人形机器人在工业设施中的应用抱有浓厚兴趣,其母公司现代汽车集团的汽车工厂便是重要的试验场之一。此次与谷歌DeepMind的合作,不仅提升了Spot的实用性,也反映了AI与机器人技术融合的加速趋势。
工业自动化正从简单的机械重复,向需要感知、推理和决策的智能系统演进。机器人能够自主读取仪表,意味着它们可以更独立地完成巡检、监控和维护任务,减少对人力的依赖,提高安全性和效率。
然而,这一技术仍处于试验阶段,其大规模部署还需考虑成本、可靠性和环境适应性等因素。未来,随着AI模型的持续优化和机器人硬件的进步,我们有望看到更多类似Spot的智能机器人在能源、制造、物流等领域发挥关键作用。
小结
谷歌DeepMind的Gemini Robotics-ER 1.6模型通过“代理视觉”技术,使波士顿动力Spot等机器人具备了高精度的仪表读取能力,这是AI赋能机器人“具身推理”的重要一步。它不仅提升了工业巡检的自动化水平,也为机器人技术在复杂环境中的应用开辟了新路径。随着合作的深入,智能机器人有望成为工业4.0时代不可或缺的助手。
