Cohere发布开源语音转录模型Transcribe,专为消费级GPU优化
企业AI公司Cohere近日发布了其首个语音模型——Transcribe,这是一个开源的自动语音识别模型,专为转录任务设计。该模型仅包含20亿参数,相对轻量,旨在让用户能够在消费级GPU上自行托管使用。目前,Transcribe支持14种语言,包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语。
性能表现与优势
在Hugging Face Open ASR排行榜上,Transcribe的平均词错误率(WER)达到5.42,优于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2和Qwen3-ASR-1.7B Speech等模型。Cohere声称,在人类评估员对其转录准确性、连贯性和可用性进行评估时,Transcribe的平均胜率为61%。此外,该模型每分钟可处理525分钟音频,在其类别中表现突出。
应用场景与部署
Transcribe适用于笔记记录、语音分析等任务,随着Granola和Wispr Flow等笔记和听写应用需求的增长,语音识别模型正变得越来越受欢迎。Cohere计划将Transcribe集成到其企业代理编排平台North中,并通过API免费提供。模型还将在Cohere的托管推理平台Model Vault上可用。
局限性与未来展望
尽管整体表现优异,但Transcribe在转录葡萄牙语、德语和西班牙语时仍落后于竞争对手。这反映了多语言语音识别面临的挑战,尤其是在处理语言变体和口音方面。Cohere的这一举措,结合其2025年2.4亿美元的年经常性收入报告,显示了公司在AI基础设施领域的持续扩张。开源策略可能有助于吸引开发者社区,推动模型在实际场景中的优化和应用。
行业背景
语音AI市场正快速增长,企业寻求高效、可定制的解决方案以处理多语言内容。Cohere的Transcribe以轻量级和开源特性切入,降低了部署门槛,可能对中小企业和开发者具有吸引力。未来,随着模型更新和语言支持扩展,其竞争力有望进一步提升。