Mira Murati 的 Thinking Machines 发布“交互模型”，实时多模态 AI 协作

前 OpenAI CTO Mira Murati 创立的 AI 公司 Thinking Machines 于周一公布了其核心研究方向——“交互模型”。该公司宣称，这一技术旨在打破当前 AI 与人类之间“单线程”的沟通瓶颈，让 AI 能够实时感知并响应多模态信息，从而像人类自然协作一样与用户互动。

什么是“交互模型”？

Thinking Machines 指出，现有的大模型在与人类交互时存在一个根本性局限：“它们体验现实的方式是单线程的。” 在用户完成打字或说话之前，模型会一直等待，无法感知用户正在做什么或状态如何；而在模型生成回复的整个过程中，它的感知又会“冻结”，无法接收任何新信息，直到输出完毕或被中断。

这就像两个人只能通过电子邮件来解决一场关键分歧，而无法面对面即时沟通。Thinking Machines 认为，这种模式严重限制了人机协作的带宽：用户的知识、意图和判断无法充分传递给模型，模型的工作成果也难以被人类即时理解。

而“交互模型”的核心突破在于：让 AI 能够实时、连续地处理音频、视频和文本信息，边感知、边思考、边回应。 用户可以像与真人对话一样，通过语音、手势甚至环境变化与 AI 互动，AI 也能根据实时输入动态调整自己的行为。

实际演示案例

为了展示这一理念，Thinking Machines 发布了几个演示视频：

听故事并识别动物：AI 在用户朗读故事时，实时识别出其中提到的动物名称。
实时语音翻译：AI 能够一边听用户说话，一边即时将内容翻译成另一种语言。
姿态提醒：AI 通过摄像头捕捉用户坐姿，当用户驼背时给出实时提醒。

这些案例展示了“交互模型”在低延迟、多模态融合方面的潜力，与目前主流 AI 助手“一问一答”的体验截然不同。

行业背景与未来展望

Murati 于 2025 年 2 月离开 OpenAI 后创立了 Thinking Machines。在她离职前后，OpenAI 经历了多轮核心人才流失，部分成员转投 Meta，也有一些人最终回归 OpenAI。Murati 的新公司从一开始就备受关注，此次公布的“交互模型”方向也延续了她在 OpenAI 期间对多模态和实时交互的重视。

不过，目前“交互模型”仍处于概念验证阶段。Thinking Machines 计划在未来几个月内开放“有限研究预览”，并在今年晚些时候进行更广泛的发布。这意味着用户短期内还无法亲身体验这一技术。

从行业角度看，“交互模型”试图解决的是当前 AI 产品一个普遍的痛点：交互的异步性和碎片化。无论是 ChatGPT 还是其他语音助手，本质上都是“用户输入-模型输出”的回合制模式，缺乏人类对话中常见的重叠、打断、非语言信号等自然元素。如果 Thinking Machines 能够真正实现实时、多模态、连续的 AI 交互，可能会为人机协作带来范式级别的改变——例如在远程教育、实时翻译、辅助驾驶、创意协作等场景中，AI 的角色将从“工具”升级为“同伴”。

当然，实现这一目标的技术挑战巨大：实时处理多模态数据需要极低的延迟和高效的模型架构；同时，如何确保 AI 在连续交互中保持上下文一致性、避免错误累积，也是必须攻克的难题。Thinking Machines 能否在激烈的 AI 竞争中脱颖而出，还有待时间检验。

Mira Murati 的 AI 公司 Thinking Machines 正在打造“交互模型”：让人与 AI 像真人一样协作

什么是“交互模型”？

实际演示案例

行业背景与未来展望

延伸阅读

相关资讯