SheepNav
新上线今天0 投票

使用 Amazon SageMaker AI 和 vLLM 构建实时语音应用

实时语音转写是语音助手、直播字幕、联络中心分析和无障碍工具等应用的核心能力。传统请求-响应推理需要等待完整音频上传后才能开始转写,这引入的延迟破坏了实时体验。从 2025 年 11 月起,Amazon SageMaker AI 支持双向流式推理,允许客户端与模型容器之间持续双向传输数据。同时,vLLM 通过其 Realtime API(基于 WebSocket 的双向流)支持实时音频转写。本文将两者结合,展示如何使用 SageMaker AI 的 vLLM 容器部署 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 模型,构建一个完全托管的实时语音转文本服务。

关键特性

构建生产级语音 AI 应用需要多个基础设施组件紧密配合,并满足严格的延迟要求。SageMaker AI 和 vLLM 各自解决了不同部分的问题:

  • 实时语音模型与高效 GPU 服务:核心是能够增量处理音频的 ASR 模型,vLLM 通过其 Realtime API(原生 WebSocket 端点 /v1/realtime)提供支持,并采用分段 CUDA 图执行减少 GPU 内核启动开销,从而降低流式转写中的每 token 延迟。
  • 双向流式推理:SageMaker AI 支持双向流,客户端可同时发送音频并接收转写结果,无需等待完整音频。
  • 完全托管与可扩展:SageMaker AI 负责基础设施管理,包括自动缩放、监控和安全性。

部署步骤

  1. 准备模型:从 Hugging Face 获取 Voxtral-Mini-4B-Realtime-2602 模型,并将其打包为适用于 vLLM 的格式。
  2. 创建 SageMaker 端点:使用 SageMaker SDK 创建一个启用了双向流的端点,指定 vLLM 容器镜像。
  3. 配置 WebSocket 客户端:客户端通过 WebSocket 连接到端点,持续发送音频数据并接收实时转写结果。

完整示例代码可在 GitHub 仓库 中找到。

性能与优势

相比传统方法,该方案显著降低了端到端延迟。例如,在语音助手场景中,用户说话后几乎立即看到转写文本,交互更加自然。此外,SageMaker AI 的托管特性减少了运维负担,而 vLLM 的开源特性允许用户灵活调整模型配置、量化和编译设置。

应用场景

  • 语音助手:实时理解用户指令并快速响应。
  • 直播字幕:为直播视频生成实时字幕。
  • 联络中心分析:实时转写客户通话,进行情感分析或合规检查。
  • 无障碍工具:帮助听障人士实时获取语音信息。

这一组合为开发者提供了构建实时语音应用的高性能、低成本方案,推动了 AI 语音技术的普及。

延伸阅读

  1. 掩码离散序列模型中成对互信息的神经估计:让AI学会“读懂”变量关系
  2. GraphDiffMed:融合药理图先验与差分注意力机制,实现更可靠的药物推荐
  3. TabPFN-MT:专为表格数据设计的原生多任务上下文学习器
查看原文