
MiMo-V2.5 Voice
producthunt.com
双语方言歌曲语音识别
27天前制作者:Rohan Chaubey
关于 MiMo-V2.5 Voice
MiMo-V2.5 Voice 是小米推出的开源语音识别模型,参数规模达 8B,专为处理复杂语音场景而设计。它不仅支持普通话和英语,还能精准识别八种中文方言、中英混合语码切换以及歌曲歌词,填补了传统 ASR 在方言和音乐领域的空白。
核心功能
模型采用先进的端到端架构,能够同时处理多种语言和方言,无需切换模型。对于中英混合的日常对话、方言与普通话夹杂的语音,MiMo-V2.5 Voice 均能保持高准确率。此外,它还能识别带旋律的歌唱语音,将歌词转录为文本,适用于音乐内容分析。
主要特性
- 多方言支持:覆盖粤语、闽南语、吴语等八种主要中文方言,方言识别率领先。
- 语码切换识别:无缝处理中英文混合语音,如“这个project的deadline是明天”。
- 歌曲歌词转录:首次实现开源模型对歌唱语音的识别,支持流行、民谣等风格。
- 开源可商用:基于 Apache 2.0 许可,开发者可自由部署、微调,用于商业应用。
- 高性能推理:8B 参数在消费级 GPU 上即可运行,支持实时转录。
适用场景
适用于语音助手、会议记录、方言地区客服系统、音乐内容管理、教育领域的多语言学习工具等。尤其适合需要处理方言或混合语音的开发者,以及音乐平台歌词自动生成需求。