SheepNav
speech-swift

speech-swift

producthunt.com

全栈语音能力,本地运行。

2天前制作者:aufklarer

关于 speech-swift

speech-swift 是一个专为 Apple Silicon 设备设计的 Swift 包,将通常需要从云 API 租用的全套语音能力——转录、富有表现力的 TTS、语音克隆、说话人感知的说话人分离、降噪、全双工语音到语音——全部集成在一个本地运行的包中。通过 brew install soniqo/tap/speech 即可安装,它提供了 CLI、本地 HTTP 服务器和 Swift API。采用 Apache 2.0 许可证,无需云服务、无需 API 密钥、无需按分钟计费。

核心功能

  • 语音转录:支持高精度语音转文字,适用于实时或离线场景。
  • 表现力 TTS:生成自然流畅、富有情感的语音输出,支持多种声音和语调。
  • 语音克隆:基于少量样本快速克隆特定说话人的声音。
  • 说话人分离:自动识别并区分不同说话人,提升会议记录等场景的可用性。
  • 降噪:实时过滤背景噪音,确保语音清晰。
  • 全双工语音到语音:实现低延迟的双向语音交互,适合对话式 AI 应用。

主要特性

  • 完全本地运行:所有处理在 Apple Silicon 设备上完成,数据不出设备,保障隐私。
  • 无需云服务:不依赖任何云端 API,无网络延迟,无按用量付费。
  • 多接口支持:提供 CLI、HTTP 服务器和 Swift API,灵活集成到不同工作流。
  • 开源免费:Apache 2.0 许可证,可自由使用、修改和分发。
  • 一键安装:通过 Homebrew 一键安装,省去复杂配置。

适用场景

  • 隐私敏感应用:医疗、金融等需要本地处理语音数据的场景。
  • 离线环境:无网络或网络受限的场所,如偏远地区、飞机上。
  • 成本敏感项目:初创公司或个人开发者,避免高昂的云 API 费用。
  • 实时交互系统:语音助手、客服机器人等需要低延迟全双工通信的应用。
  • 研究与实验:语音技术研究、原型开发,快速测试不同模型和算法。

相关工具