亚马逊 SageMaker AI 端点现支持 OpenAI 兼容 API,无缝对接现有 AI 应用
亚马逊云科技今日宣布,Amazon SageMaker AI 实时推理端点正式支持 OpenAI 兼容 API。这意味着使用 OpenAI SDK、LangChain 或 Strands Agents 等框架的开发者,只需修改端点 URL,即可直接调用 SageMaker AI 上托管的模型,无需编写自定义客户端、SigV4 签名包装器或重写代码。
核心变化:一条 /openai/v1 路径打通壁垒
SageMaker AI 端点现在暴露一个 /openai/v1 路径,原生接受 Chat Completions 格式的请求,并返回包含流式响应在内的标准回复。该功能对所有使用标准 SageMaker AI API 创建的端点和推理组件自动生效。SageMaker AI 会根据 URL 中的端点名称进行路由,因此任何 OpenAI 兼容的客户端都能即插即用。此外,用户现在可以为端点创建限时 bearer 令牌,直接用于 OpenAI 客户端,进一步简化了认证流程。
三大典型应用场景
1. 自有基础设施上的智能体工作流
如果你使用 Strands Agents 或 LangChain 构建多步骤 AI 智能体,现在可以将这些工作流完全运行在自己的 SageMaker AI 端点上。智能体调用模型时沿用同一套 OpenAI 兼容接口,但推理实际运行在用户账户内的专用 GPU 实例上,兼顾性能与数据安全。
2. 多模型统一托管,单一接口调用
如果需要运行多个模型——例如 Llama 处理通用任务、微调版 Mistral 处理领域问题、小模型做分类——可以将它们全部托管在单个 SageMaker AI 端点上,通过推理组件分配独立资源。每个模型都可通过同一个 OpenAI SDK 调用,应用代码中无需维护多套 API 客户端或路由逻辑。
3. 微调模型零代码改造上线
针对特定场景微调的开源模型,可直接部署到 SageMaker AI 并通过 OpenAI 兼容接口调用。应用程序只需修改端点 URL,无需任何代码改动,即可享受微调模型的定制能力。
行业视角:降低云上推理的迁移成本
长期以来,AWS 用户若想将 OpenAI 生态中开发的应用迁移到自托管模型,往往需要额外开发 SigV4 签名层或适配自定义 SDK。此次更新直接消除了这一障碍,使得 SageMaker AI 成为 OpenAI 生态系统的“一等公民”。对于已投资 Agent 框架和 LLM 网关的企业,这意味着可以在不改变架构的前提下,灵活切换底层推理供应商,或将部分工作负载迁入自有账户以控制成本与延迟。
Caffeine.AI 的 AI/ML 工程师 Giorgio Piatti 在公告中表示:“我们运行 AI 编码智能体,通过一个兼容 OpenAI 聊天补全协议的 LLM 网关使用多个提供商。bearer 令牌功能让我们能将 SageMaker 作为即插即用的 OpenAI 兼容推理端点加入,无需自定义 SigV4 签名,原生适配我们的网关、Vercel AI SDK 和标准 OpenAI 客户端。”
快速上手
AWS 官方提供了配套 Jupyter Notebook(GitHub 仓库),演示从部署到调用的完整流程。用户可以通过标准 SageMaker API 创建端点,获取 bearer 令牌后,在 OpenAI 客户端中将 base_url 设置为 https://<endpoint-url>/openai/v1 即可开始使用。
此次更新标志着 AWS 在模型服务兼容性上的重要一步——不强迫用户锁定在特定 SDK,而是主动适配业界最广泛使用的接口标准。对于正在构建多模型、多提供商 AI 系统的团队来说,这无疑降低了架构复杂度与运维成本。