OpenAI 发布 GPT-Realtime-2 等三款实时语音模型

OpenAI 于 2026 年 5 月 7 日发布三款全新音频模型，旨在将语音交互从简单的问答升级为具备推理、翻译和实时转录能力的智能助手。

GPT-Realtime-2 是首款具备 GPT-5 级别推理能力的语音模型，能处理复杂请求并自然推进对话。GPT-Realtime-Translate 支持从 70 多种输入语言实时翻译为 13 种输出语言，速度与说话者同步。GPT-Realtime-Whisper 则提供流式语音转文字能力，可在说话的同时完成转录。

这些模型标志着语音界面从“轮次响应”向“边听边思考、边翻译边行动”的转变。开发者现在可以构建更自然的语音应用，例如在驾驶中获取帮助、在机场修改行程、跨语言交流或免提完成任务。OpenAI 特别强调，新一代模型不仅关注响应速度，更注重理解意图、保持上下文、处理中途变更，并能在对话中调用工具。

OpenAI 发布新一代实时语音模型：推理、翻译、转录三管齐下

延伸阅读

相关资讯