Cohere发布开源语音转录模型Transcribe，支持14种语言

企业AI公司Cohere近日发布了其首个语音模型——Transcribe，这是一个开源的自动语音识别模型，专为转录任务设计。该模型仅包含20亿参数，相对轻量，旨在让用户能够在消费级GPU上自行托管使用。目前，Transcribe支持14种语言，包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。

性能表现与优势

在Hugging Face Open ASR排行榜上，Transcribe的平均词错误率（WER）达到5.42，优于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型。Cohere声称，在人类评估员对其转录准确性、连贯性和可用性进行评估时，Transcribe的平均胜率为61%。此外，该模型每分钟可处理525分钟音频，在其类别中表现突出。

应用场景与部署

Transcribe适用于笔记记录、语音分析等任务，随着Granola和Wispr Flow等笔记和听写应用需求的增长，语音识别模型正变得越来越受欢迎。Cohere计划将Transcribe集成到其企业代理编排平台North中，并通过API免费提供。模型还将在Cohere的托管推理平台Model Vault上可用。

局限性与未来展望

尽管整体表现优异，但Transcribe在转录葡萄牙语、德语和西班牙语时仍落后于竞争对手。这反映了多语言语音识别面临的挑战，尤其是在处理语言变体和口音方面。Cohere的这一举措，结合其2025年2.4亿美元的年经常性收入报告，显示了公司在AI基础设施领域的持续扩张。开源策略可能有助于吸引开发者社区，推动模型在实际场景中的优化和应用。

行业背景

语音AI市场正快速增长，企业寻求高效、可定制的解决方案以处理多语言内容。Cohere的Transcribe以轻量级和开源特性切入，降低了部署门槛，可能对中小企业和开发者具有吸引力。未来，随着模型更新和语言支持扩展，其竞争力有望进一步提升。

Cohere发布开源语音转录模型Transcribe，专为消费级GPU优化

性能表现与优势

应用场景与部署

局限性与未来展望

行业背景

延伸阅读

相关资讯