精选今天0 投票
OpenAI 发布新一代实时语音模型:推理、翻译、转录三管齐下
OpenAI 于 2026 年 5 月 7 日发布三款全新音频模型,旨在将语音交互从简单的问答升级为具备推理、翻译和实时转录能力的智能助手。
GPT-Realtime-2 是首款具备 GPT-5 级别推理能力的语音模型,能处理复杂请求并自然推进对话。GPT-Realtime-Translate 支持从 70 多种输入语言实时翻译为 13 种输出语言,速度与说话者同步。GPT-Realtime-Whisper 则提供流式语音转文字能力,可在说话的同时完成转录。
这些模型标志着语音界面从“轮次响应”向“边听边思考、边翻译边行动”的转变。开发者现在可以构建更自然的语音应用,例如在驾驶中获取帮助、在机场修改行程、跨语言交流或免提完成任务。OpenAI 特别强调,新一代模型不仅关注响应速度,更注重理解意图、保持上下文、处理中途变更,并能在对话中调用工具。