SheepNav
新上线今天0 投票

收集机器人训练数据:脏活累活,但AI实验室已经开始付费了

如果物理AI要像大语言模型(LLM)那样取得突破,首先得解决数据问题。两周前,OpenAI宣布重启2021年关闭的机器人项目,这释放了一个明确信号:顶级AI实验室正在争相教会机器在物理世界中操作。但打造有能力的机器人需要一种AI行业目前尚未拥有的东西——与语言模型训练数据相匹配的物理交互数据。这一缺口正催生一种新型基础设施业务。

与依赖海量公开文本的LLM不同,机器人需要捕捉物理交互的数据,而这种数据几乎不存在。YouTube视频和零工工人拍摄的片段保真度低,且难以与物理世界对齐。今天,一家名为 XDOF(发音为"ecks-doff")的初创公司从隐身模式中走出,它押注AI的下一个瓶颈不是模型或芯片,而是教会机器人如何与物理世界交互所需的数据反馈循环。该公司旨在构建前沿实验室和机器人公司难以自行搭建的数据管道、收集工具和标注系统,并已从 Thrive Capital、Spark Capital、a16z、Lux 和 WndrCo 筹集了 7000万美元

XDOF联合创始人兼CEO Philipp Wu 表示,这家拥有约60名员工的公司已与20家客户合作,其中包括几个前沿AI实验室,但无法透露具体名称。Wu说:"所有顶级实验室都在尝试进军机器人领域。我们已经看到在语言模型竞赛中落后的一些教训……你不想在追求这项技术时太晚,每个人都明白物理AI是下一个前沿。"

Wu本人在加州大学伯克利分校攻读博士时就遇到了这个问题。他的研究方向是让机器人从大规模数据集中学习技能。但有一个问题:"我们没有大规模数据可用,"他告诉TechCrunch,"这是一个先有鸡还是先有蛋的问题——我们首先需要实际收集数据,然后才能问如何训练机器人基础模型。"

Wu与未来的联合创始人兼CTO Fred Shentu 合作开发了一个名为 GELLO 的低成本远程操作系统,让人类操作员控制机械臂以生成训练数据。这篇论文在机器人领域影响深远,"因为很多人都有类似的需求和瓶颈,许多人开始利用这类设备进行数据收集。"

看到机会后,Wu、Shentu和第三位联合创始人兼COO决定创办XDOF。他们发现,虽然远程操作收集数据是可行的,但规模化面临巨大挑战。为此,XDOF开发了专用硬件和软件平台,包括定制化数据收集设备、标注工具和安全管理方案,以帮助客户高效、安全地获取高质量训练数据。Wu强调,这绝不是简单的外包,而是构建一个完整的数据基础设施。

随着物理AI竞赛升温,XDOF能否成为机器人领域的Scale AI?时间会给出答案。

延伸阅读

  1. AI 编程代理教会机器人安装 GPU 和剪扎带,NVIDIA 实验室实现夜间自主进化
  2. 亚马逊Prime Day提前开抢:三星Galaxy手机、平板、电视超值折扣汇总
  3. 全球领导人渴望美国AI,但不愿美国能随时关闭它
查看原文