SheepNav
新上线今天0 投票

Amazon SageMaker AI 推出容量感知推理:自动实例回退,告别手动抢 GPU

核心痛点:GPU 容量不足导致推理端点部署失败

在生成式 AI 生产环境中,GPU 算力稀缺是常态。过去,用户在 Amazon SageMaker AI 上创建推理端点时,必须指定一个具体的实例类型(如 ml.p4d.24xlarge)。如果该实例类型在指定区域或可用区没有足够容量,端点创建就会直接失败,返回 InsufficientCapacityError。用户只能手动更换实例类型,反复重试,直到某个类型成功部署——这个过程可能耗费数十分钟甚至更久。

更糟糕的是,自动扩缩容(Auto Scaling)也会被单一实例类型限制:当流量增长触发扩容时,如果指定实例类型容量不足,AWS 会不断重试同一个类型,导致端点无法扩容,业务请求被阻塞。缩容时也无法区分“首选实例”和“备用实例”,所有实例被一视同仁对待,缺乏弹性策略的灵活性。

新能力:容量感知实例池(Capacity-Aware Instance Pool)

今天,Amazon SageMaker AI 正式推出了容量感知实例池功能,支持在创建新端点或修改现有端点时,定义一个按优先级排序的实例类型列表。SageMaker AI 会在创建、扩容和缩容过程中自动遍历这个列表,选择第一个当前有可用容量的实例类型进行部署。

工作原理

  • 创建端点时:系统按优先级顺序尝试实例类型,一旦某个类型有容量,立即使用该类型完成部署。如果所有类型都无容量,则返回明确的错误信息。
  • 扩容时:当自动扩缩容策略触发增加实例时,同样按优先级列表检查容量,优先选择首选类型,若容量不足则自动 fallback 到下一优先级。
  • 缩容时:缩容会优先移除低优先级的实例(即 fallback 实例),保留高优先级的首选实例,从而保持最佳性能配置。

适用场景

该功能适用于 单模型端点(Single Model Endpoints)基于推理组件(Inference Component)的端点 以及 异步推理端点(Asynchronous Inference Endpoints)。这意味着几乎所有的 SageMaker AI 推理部署场景都能受益。

如何快速上手?

创建新端点

在 AWS 管理控制台、AWS CLI 或 SDK 中创建端点时,在 ProductionVariantsInferenceComponents 配置中,使用新的 InstanceTypePool 参数代替原来的 InstanceType。例如:

{
  "ProductionVariants": [
    {
      "InstanceTypePool": ["ml.g5.48xlarge", "ml.p4d.24xlarge", "ml.p5.48xlarge"],
      "InitialInstanceCount": 2
    }
  ]
}

迁移现有端点

对于已经在运行的端点,可以通过 UpdateEndpoint API 或控制台修改端点配置,添加 InstanceTypePool。SageMaker AI 会自动执行滚动更新,逐步将现有实例替换为符合新池定义的实例,期间服务不中断。

行业意义:让 AI 基础设施更“弹性”

在 AI 算力紧张的背景下,容量感知实例池 实际上将“手动抢资源”的运维负担转移给了云平台。它带来的直接好处包括:

  1. 缩短部署时间:从分钟级的手动重试缩短到秒级的自动 fallback,尤其适合快速迭代的 ML 团队。
  2. 提高可用性:即使首选实例类型缺货,端点也能自动使用次优类型继续运行,避免服务中断。
  3. 优化成本:用户可以将更便宜的实例类型(如 ml.g5)作为首选,将高性能但昂贵的实例(如 ml.p5)作为备用,在容量充足时优先使用低成本实例,仅在必要时才使用高性能实例。

小结

Amazon SageMaker AI 的容量感知推理功能,是 AWS 回应 GPU 短缺问题的一个务实方案。它不承诺增加物理算力,但通过智能调度显著提升了现有资源的利用率和端点的部署成功率。对于正在大规模部署 LLM 或视觉模型的企业来说,这无疑是一个值得立即采用的特性。

该功能已在所有 AWS 商业区域上线,无需额外付费。

延伸阅读

  1. OpenAI总裁出庭:细节控、辩论范,却避而不答关键问题
  2. Greg Brockman为300亿美元OpenAI股权辩护:“血汗与泪水”
  3. OpenAI的亲密伙伴Cerebras:百亿级IPO在望
查看原文