
新上线今天0 投票
谷歌发布 Gemini 3.5 Live Translate:实时语音翻译,保留语气语调
谷歌在实时翻译领域再度发力,正式推出 Gemini 3.5 Live Translate。这是一款基于 Gemini 3.5 家族的语音到语音翻译模型,能够实现接近实时的对话翻译,并保留说话者的语气、语速和音调,让翻译后的声音听起来更自然、更像本人。新模型支持 超过 70 种语言 的自动检测与翻译,延迟仅几秒,足以跟上正常对话节奏。
与以往需要特定硬件(如 Pixel Buds)不同,Gemini 3.5 Live Translate 的覆盖范围大幅扩展:
- 开发者 可通过 Gemini Live API 或 AI Studio 的公开预览版进行集成,模型能自动处理多语言输入并过滤背景噪音。
- 企业用户 本月起可在 Google Meet 中使用该翻译功能,界面也将优化以突出实时翻译入口。
- 普通消费者 即将在 Android 和 iOS 的 Google Translate 应用中体验新模型,且无需特定耳机——任何蓝牙耳机均可使用。
安全性方面,谷歌为翻译后的音频添加了 SynthID 水印,以防范深度伪造风险。
此次发布是谷歌长期机器翻译研究的成果。从早期需要专用硬件的演示,到去年在 Translate 应用中扩大实时翻译范围,再到如今 Gemini 3.5 的全面铺开,谷歌正逐步降低实时翻译的使用门槛。值得注意的是,Gemini 3.5 家族目前仅推出了 Flash 版本,Pro 模型预计在未来几周内发布,届时可能带来更强大的翻译能力。
在 AI 翻译赛道竞争日益激烈的背景下,谷歌凭借 Gemini 3.5 在语音自然度和生态覆盖上建立了差异化优势。与单纯的文本翻译不同,保留语气、语速等副语言特征对于情感传递和沟通效率至关重要。同时,SynthID 水印的引入也回应了业界对 AI 生成内容真实性的担忧。
对于开发者和企业而言,Gemini Live API 的开放意味着可以快速将高质量实时翻译集成到自己的应用中,而无需处理复杂的多语言配置。对于普通用户,即将到来的 Translate 应用更新将让跨语言交流变得前所未有的流畅和自然。