SheepNav
精选16天前560 投票

Kitten TTS 发布三款新模型:最小仅25MB,CPU即可运行高质量语音合成

开源轻量级文本转语音(TTS)项目 Kitten TTS 近日发布了 v0.8 版本,带来了三款全新的模型,参数规模从 1500万到8000万 不等,磁盘占用最小仅 25MB。这一更新进一步巩固了其在边缘计算和低资源设备上的应用优势。

模型概览:从“纳米”到“迷你”

本次发布的三款模型分别命名为:

  • kitten-tts-nano:1500万参数,56MB(默认版本),量化后仅 25MB
  • kitten-tts-micro:4000万参数,41MB
  • kitten-tts-mini:8000万参数,80MB

值得注意的是,nano 模型的 int8 量化版本将体积压缩到了惊人的 25MB,使其成为目前市面上最轻量的高质量 TTS 模型之一。开发者可以根据应用场景在音质和模型大小之间进行权衡选择。

核心特性:为何值得关注?

Kitten TTS 并非简单的“玩具项目”,其设计针对实际生产环境:

1. 完全无需 GPU
基于 ONNX 运行时 优化,所有推理均在 CPU 上高效完成。这打破了传统 TTS 对昂贵显卡的依赖,大幅降低了部署门槛和硬件成本。

2. 内置实用功能

  • 8 种预置声音:包括 Bella、Jasper、Luna、Bruno 等,覆盖不同音色
  • 语速调节:通过 speed 参数灵活控制播放速率
  • 文本预处理:自动处理数字、货币、单位等特殊格式,提升合成自然度
  • 24 kHz 音频输出:提供标准采样率的高质量音频

3. 开发者友好
项目提供清晰的 API 参考快速入门指南在线演示(可通过 Hugging Face Spaces 直接体验)。安装仅需一行 pip 命令,生成语音的代码简洁直观。

应用场景与行业意义

在 AI 语音合成领域,大型模型如 GPT-SoVITS 或 VALL-E 虽然效果惊艳,但动辄数 GB 的体量和 GPU 需求让它们在嵌入式设备、移动应用或边缘计算场景中难以落地。Kitten TTS 填补的正是这一市场空白

25-80MB 的模型大小 使其能够轻松集成到:

  • 物联网设备:智能家居音箱、车载语音助手
  • 移动应用:离线语音导航、无障碍阅读工具
  • 低功耗服务器:客服机器人、语音提醒系统
  • 教育或研究工具:轻量级语音合成实验平台

当前状态与未来

项目目前处于 开发者预览阶段,意味着 API 可能在未来版本中调整。团队同时提供 商业支持,包括集成协助、定制语音和企业授权,显示出其向成熟产品演进的意图。

从技术路线图看,Kitten TTS 的迭代方向很明确:在保持“轻量”核心优势的同时,持续提升语音的自然度和表现力。随着边缘 AI 需求的爆发,这类专为低资源环境优化的模型价值将日益凸显。

小结

Kitten TTS v0.8 的发布,不仅是一次简单的版本更新,更是 轻量化 AI 语音合成 领域的一次重要推进。它证明,高质量语音合成未必需要庞大的计算资源。对于开发者而言,这提供了一个成本极低、易于部署的 TTS 选项;对于整个行业,它则展示了 AI 模型“瘦身”与“平民化”的可行路径。

延伸阅读

  1. Donut Browser:开源反检测浏览器,支持无限用户配置文件
  2. Klick AI 相机助手:实时 AI 相机,现场指导构图
  3. Vista:macOS 本该内置的图片查看器
查看原文