Gemini 3.5 Live Translate：实时语音翻译模型发布

谷歌近日发布了 Gemini 3.5 Live Translate，这是一款专为实时语音到语音翻译设计的最新音频模型。该模型旨在提供低延迟、高准确度的对话翻译体验，支持多种语言对，并能够保留说话者的语调与情感，使得跨语言交流更加自然流畅。

技术亮点

Gemini 3.5 Live Translate 基于谷歌最新的 Gemini 3.5 架构，该架构在语音处理方面进行了专项优化。与传统级联式系统（先语音识别再翻译最后合成语音）不同，Live Translate 采用端到端的神经模型，直接学习从源语言音频到目标语言音频的映射，从而大幅降低延迟。据谷歌介绍，该模型在多个基准测试中，翻译质量（BLEU 分数）与延迟均优于现有竞品。

应用场景

Live Translate 的发布将首先应用于谷歌翻译 App 和 Pixel 设备，后续可能开放 API 供第三方开发者使用。在商务会议、国际旅行、远程协作等场景中，该模型有望打破语言障碍，实现近乎实时的对话翻译。例如，用户只需佩戴耳机，即可听到对方发言的即时翻译版本，同时保留语气和情感，提升沟通效率。

行业影响

实时语音翻译是 AI 领域长期以来的难点，尤其是处理口音、背景噪声、语速变化等复杂情况。Gemini 3.5 Live Translate 的推出，可能进一步巩固谷歌在语音 AI 领域的领先地位。与此同时，竞争对手如 OpenAI、微软等也在加速布局，未来该领域的竞争将更加激烈。

小结

Gemini 3.5 Live Translate 标志着实时语音翻译技术迈入新阶段。随着多模态 AI 的普及，语音交互将变得更加无缝。不过，目前该模型仅支持有限语言对，且对网络环境要求较高，大规模普及仍需时日。

Gemini 3.5 Live Translate：实时语音翻译新标杆

技术亮点

应用场景

行业影响

小结

延伸阅读

相关资讯