SheepNav
精选今天0 投票

OpenAI 发布新一代实时语音模型:推理、翻译、转录三管齐下

OpenAI 于 2026 年 5 月 7 日发布三款全新音频模型,旨在将语音交互从简单的问答升级为具备推理、翻译和实时转录能力的智能助手。

GPT-Realtime-2 是首款具备 GPT-5 级别推理能力的语音模型,能处理复杂请求并自然推进对话。GPT-Realtime-Translate 支持从 70 多种输入语言实时翻译为 13 种输出语言,速度与说话者同步。GPT-Realtime-Whisper 则提供流式语音转文字能力,可在说话的同时完成转录。

这些模型标志着语音界面从“轮次响应”向“边听边思考、边翻译边行动”的转变。开发者现在可以构建更自然的语音应用,例如在驾驶中获取帮助、在机场修改行程、跨语言交流或免提完成任务。OpenAI 特别强调,新一代模型不仅关注响应速度,更注重理解意图、保持上下文、处理中途变更,并能在对话中调用工具。

延伸阅读

  1. 《下载》| 技术如何重塑试管婴儿与阳台太阳能的崛起
  2. Parloa 打造客户愿意交谈的服务智能体
  3. 阳台太阳能热潮即将席卷美国
查看原文