SageMaker AI + vLLM 实时语音转写方案

实时语音转写是语音助手、直播字幕、联络中心分析和无障碍工具等应用的核心能力。传统请求-响应推理需要等待完整音频上传后才能开始转写，这引入的延迟破坏了实时体验。从 2025 年 11 月起，Amazon SageMaker AI 支持双向流式推理，允许客户端与模型容器之间持续双向传输数据。同时，vLLM 通过其 Realtime API（基于 WebSocket 的双向流）支持实时音频转写。本文将两者结合，展示如何使用 SageMaker AI 的 vLLM 容器部署 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 模型，构建一个完全托管的实时语音转文本服务。

关键特性

构建生产级语音 AI 应用需要多个基础设施组件紧密配合，并满足严格的延迟要求。SageMaker AI 和 vLLM 各自解决了不同部分的问题：

实时语音模型与高效 GPU 服务：核心是能够增量处理音频的 ASR 模型，vLLM 通过其 Realtime API（原生 WebSocket 端点 /v1/realtime）提供支持，并采用分段 CUDA 图执行减少 GPU 内核启动开销，从而降低流式转写中的每 token 延迟。
双向流式推理：SageMaker AI 支持双向流，客户端可同时发送音频并接收转写结果，无需等待完整音频。
完全托管与可扩展：SageMaker AI 负责基础设施管理，包括自动缩放、监控和安全性。

部署步骤

准备模型：从 Hugging Face 获取 Voxtral-Mini-4B-Realtime-2602 模型，并将其打包为适用于 vLLM 的格式。
创建 SageMaker 端点：使用 SageMaker SDK 创建一个启用了双向流的端点，指定 vLLM 容器镜像。
配置 WebSocket 客户端：客户端通过 WebSocket 连接到端点，持续发送音频数据并接收实时转写结果。

完整示例代码可在 GitHub 仓库中找到。

性能与优势

相比传统方法，该方案显著降低了端到端延迟。例如，在语音助手场景中，用户说话后几乎立即看到转写文本，交互更加自然。此外，SageMaker AI 的托管特性减少了运维负担，而 vLLM 的开源特性允许用户灵活调整模型配置、量化和编译设置。

应用场景

语音助手：实时理解用户指令并快速响应。
直播字幕：为直播视频生成实时字幕。
联络中心分析：实时转写客户通话，进行情感分析或合规检查。
无障碍工具：帮助听障人士实时获取语音信息。

这一组合为开发者提供了构建实时语音应用的高性能、低成本方案，推动了 AI 语音技术的普及。

使用 Amazon SageMaker AI 和 vLLM 构建实时语音应用

关键特性

部署步骤

性能与优势

应用场景

延伸阅读

相关资讯