SheepNav
新上线今天0 投票

Thinking Machines 想让 AI 真正实现“边听边答”——像打电话一样自然

突破传统对话模式:全双工 AI 来了

当前几乎所有 AI 模型的工作方式都如出一辙:你说话,它倾听;它回答,你等待。这种“半双工”模式就像发短信,一来一回总有延迟。由前 OpenAI CTO Mira Murati 创立的 Thinking Machines Lab 正试图打破这一局面——他们推出了名为 interaction models 的全新架构,让 AI 能够 边听边答,实现真正的“全双工”对话,如同一次自然流畅的电话交流。

技术亮点:接近人类对话的响应速度

公司宣称其模型 TML-Interaction-Small 的响应时间仅为 0.40 秒,这一速度已接近人类自然对话的节奏,且显著快于 OpenAI 和 Google 的同类模型。传统 AI 需要完整接收用户输入后才能开始生成回复,而 Thinking Machines 的新模型则能 并行处理输入与输出,在用户尚未说完时就开始构建回应,从而消除尴尬的等待间隙。

当前状态:研究预览,尚未公测

需要注意的是,目前这仍是一个 研究预览版,并非成熟产品。公司计划在未来几个月内开放有限的研究预览,更广泛的公开发布预计在今年晚些时候。这意味着,尽管技术指标令人兴奋,但实际体验是否如宣传般出色,仍需等待用户亲自验证。

行业影响与展望

全双工对话是 AI 交互领域长期追求的目标。如果 Thinking Machines 能成功落地,将彻底改变语音助手、客服机器人、实时翻译等场景的用户体验。不过,技术挑战也不容小觑:如何在不牺牲准确性的前提下实现实时打断与响应?如何处理多轮对话中的上下文冲突?这些问题有待后续研究揭晓。

对于 AI 行业而言,这一尝试标志着从“问答机器”向“对话伙伴”的进化迈出了关键一步。正如公司所言,交互性应当成为模型的原生能力,而非事后添加的补丁。未来几个月的研究预览将是验证这一理念的试金石。

延伸阅读

  1. 基础模型嵌入能提升跨国作物产量泛化能力吗?一项撒哈拉以南非洲的留一国交叉验证评估
  2. TTCD:基于Transformer的非平稳时间序列因果关系发现框架
  3. TurboQuant 启发下的 KV 缓存量化统计推断与质量评估
查看原文