Mira Murati 的 AI 公司 Thinking Machines 正在打造“交互模型”:让人与 AI 像真人一样协作
前 OpenAI CTO Mira Murati 创立的 AI 公司 Thinking Machines 于周一公布了其核心研究方向——“交互模型”。该公司宣称,这一技术旨在打破当前 AI 与人类之间“单线程”的沟通瓶颈,让 AI 能够实时感知并响应多模态信息,从而像人类自然协作一样与用户互动。
什么是“交互模型”?
Thinking Machines 指出,现有的大模型在与人类交互时存在一个根本性局限:“它们体验现实的方式是单线程的。” 在用户完成打字或说话之前,模型会一直等待,无法感知用户正在做什么或状态如何;而在模型生成回复的整个过程中,它的感知又会“冻结”,无法接收任何新信息,直到输出完毕或被中断。
这就像两个人只能通过电子邮件来解决一场关键分歧,而无法面对面即时沟通。Thinking Machines 认为,这种模式严重限制了人机协作的带宽:用户的知识、意图和判断无法充分传递给模型,模型的工作成果也难以被人类即时理解。
而“交互模型”的核心突破在于:让 AI 能够实时、连续地处理音频、视频和文本信息,边感知、边思考、边回应。 用户可以像与真人对话一样,通过语音、手势甚至环境变化与 AI 互动,AI 也能根据实时输入动态调整自己的行为。
实际演示案例
为了展示这一理念,Thinking Machines 发布了几个演示视频:
- 听故事并识别动物:AI 在用户朗读故事时,实时识别出其中提到的动物名称。
- 实时语音翻译:AI 能够一边听用户说话,一边即时将内容翻译成另一种语言。
- 姿态提醒:AI 通过摄像头捕捉用户坐姿,当用户驼背时给出实时提醒。
这些案例展示了“交互模型”在低延迟、多模态融合方面的潜力,与目前主流 AI 助手“一问一答”的体验截然不同。
行业背景与未来展望
Murati 于 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines。在她离职前后,OpenAI 经历了多轮核心人才流失,部分成员转投 Meta,也有一些人最终回归 OpenAI。Murati 的新公司从一开始就备受关注,此次公布的“交互模型”方向也延续了她在 OpenAI 期间对多模态和实时交互的重视。
不过,目前“交互模型”仍处于概念验证阶段。Thinking Machines 计划在未来几个月内开放“有限研究预览”,并在今年晚些时候进行更广泛的发布。这意味着用户短期内还无法亲身体验这一技术。
从行业角度看,“交互模型”试图解决的是当前 AI 产品一个普遍的痛点:交互的异步性和碎片化。无论是 ChatGPT 还是其他语音助手,本质上都是“用户输入-模型输出”的回合制模式,缺乏人类对话中常见的重叠、打断、非语言信号等自然元素。如果 Thinking Machines 能够真正实现实时、多模态、连续的 AI 交互,可能会为人机协作带来范式级别的改变——例如在远程教育、实时翻译、辅助驾驶、创意协作等场景中,AI 的角色将从“工具”升级为“同伴”。
当然,实现这一目标的技术挑战巨大:实时处理多模态数据需要极低的延迟和高效的模型架构;同时,如何确保 AI 在连续交互中保持上下文一致性、避免错误累积,也是必须攻克的难题。Thinking Machines 能否在激烈的 AI 竞争中脱颖而出,还有待时间检验。
