新上线今天0 投票
使用 Amazon SageMaker AI 和 vLLM 构建实时语音应用
实时语音转写是语音助手、直播字幕、联络中心分析和无障碍工具等应用的核心能力。传统请求-响应推理需要等待完整音频上传后才能开始转写,这引入的延迟破坏了实时体验。从 2025 年 11 月起,Amazon SageMaker AI 支持双向流式推理,允许客户端与模型容器之间持续双向传输数据。同时,vLLM 通过其 Realtime API(基于 WebSocket 的双向流)支持实时音频转写。本文将两者结合,展示如何使用 SageMaker AI 的 vLLM 容器部署 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 模型,构建一个完全托管的实时语音转文本服务。
关键特性
构建生产级语音 AI 应用需要多个基础设施组件紧密配合,并满足严格的延迟要求。SageMaker AI 和 vLLM 各自解决了不同部分的问题:
- 实时语音模型与高效 GPU 服务:核心是能够增量处理音频的 ASR 模型,vLLM 通过其 Realtime API(原生 WebSocket 端点
/v1/realtime)提供支持,并采用分段 CUDA 图执行减少 GPU 内核启动开销,从而降低流式转写中的每 token 延迟。 - 双向流式推理:SageMaker AI 支持双向流,客户端可同时发送音频并接收转写结果,无需等待完整音频。
- 完全托管与可扩展:SageMaker AI 负责基础设施管理,包括自动缩放、监控和安全性。
部署步骤
- 准备模型:从 Hugging Face 获取 Voxtral-Mini-4B-Realtime-2602 模型,并将其打包为适用于 vLLM 的格式。
- 创建 SageMaker 端点:使用 SageMaker SDK 创建一个启用了双向流的端点,指定 vLLM 容器镜像。
- 配置 WebSocket 客户端:客户端通过 WebSocket 连接到端点,持续发送音频数据并接收实时转写结果。
完整示例代码可在 GitHub 仓库 中找到。
性能与优势
相比传统方法,该方案显著降低了端到端延迟。例如,在语音助手场景中,用户说话后几乎立即看到转写文本,交互更加自然。此外,SageMaker AI 的托管特性减少了运维负担,而 vLLM 的开源特性允许用户灵活调整模型配置、量化和编译设置。
应用场景
- 语音助手:实时理解用户指令并快速响应。
- 直播字幕:为直播视频生成实时字幕。
- 联络中心分析:实时转写客户通话,进行情感分析或合规检查。
- 无障碍工具:帮助听障人士实时获取语音信息。
这一组合为开发者提供了构建实时语音应用的高性能、低成本方案,推动了 AI 语音技术的普及。