谷歌 Gemini 3.5 Live Translate 发布：实时语音翻译保留语气语调

谷歌在实时翻译领域再度发力，正式推出 Gemini 3.5 Live Translate。这是一款基于 Gemini 3.5 家族的语音到语音翻译模型，能够实现接近实时的对话翻译，并保留说话者的语气、语速和音调，让翻译后的声音听起来更自然、更像本人。新模型支持 超过 70 种语言 的自动检测与翻译，延迟仅几秒，足以跟上正常对话节奏。

与以往需要特定硬件（如 Pixel Buds）不同，Gemini 3.5 Live Translate 的覆盖范围大幅扩展：

开发者 可通过 Gemini Live API 或 AI Studio 的公开预览版进行集成，模型能自动处理多语言输入并过滤背景噪音。
企业用户 本月起可在 Google Meet 中使用该翻译功能，界面也将优化以突出实时翻译入口。
普通消费者 即将在 Android 和 iOS 的 Google Translate 应用中体验新模型，且无需特定耳机——任何蓝牙耳机均可使用。

安全性方面，谷歌为翻译后的音频添加了 SynthID 水印，以防范深度伪造风险。

此次发布是谷歌长期机器翻译研究的成果。从早期需要专用硬件的演示，到去年在 Translate 应用中扩大实时翻译范围，再到如今 Gemini 3.5 的全面铺开，谷歌正逐步降低实时翻译的使用门槛。值得注意的是，Gemini 3.5 家族目前仅推出了 Flash 版本，Pro 模型预计在未来几周内发布，届时可能带来更强大的翻译能力。

在 AI 翻译赛道竞争日益激烈的背景下，谷歌凭借 Gemini 3.5 在语音自然度和生态覆盖上建立了差异化优势。与单纯的文本翻译不同，保留语气、语速等副语言特征对于情感传递和沟通效率至关重要。同时，SynthID 水印的引入也回应了业界对 AI 生成内容真实性的担忧。

对于开发者和企业而言，Gemini Live API 的开放意味着可以快速将高质量实时翻译集成到自己的应用中，而无需处理复杂的多语言配置。对于普通用户，即将到来的 Translate 应用更新将让跨语言交流变得前所未有的流畅和自然。

谷歌发布 Gemini 3.5 Live Translate：实时语音翻译，保留语气语调

延伸阅读

相关资讯