用 EC2 Capacity Blocks for ML 和 SageMaker 训练计划锁定短期 GPU 容量
随着 GPU 需求激增,短期 GPU 容量获取成为 ML 工作负载的一大挑战。AWS 推出了 EC2 Capacity Blocks for ML 和 SageMaker 训练计划,为短期、时间敏感的 ML 任务提供预留 GPU 容量,解决了按需实例和 Spot 实例在可用性上的不确定性。
为什么需要短期 GPU 容量方案?
GPU 供不应求已是行业常态。对于负载测试、模型验证、限时工作坊或发布前准备推理容量等短期任务,传统方案各有短板:
- 按需实例:启动灵活,但容量随区域供需波动,一旦释放实例可能无法立即重新获取,导致用户被迫保持实例运行,增加成本。
- Spot 实例:成本可降低 90%,但可用性不确定,不适合不能中断的关键任务。
- 按需容量预留(ODCR):适用于长期稳态工作负载,但短期可用性有限,且按需计费无成本优势。
两大新方案:EC2 Capacity Blocks for ML 与 SageMaker 训练计划
EC2 Capacity Blocks for ML
该服务允许用户提前预留 GPU 容量,以小时为单位购买,最长可预留 14 天。它专为短期、确定性的工作负载设计,例如:
- 模型训练和调优
- 推理测试
- 模型评估和验证
- 限时活动或工作坊
用户只需指定所需实例类型、数量、区域和时长,即可锁定容量,避免按需实例的可用性风险。计费按预留时段收取,无需长期承诺。
SageMaker 训练计划
对于使用 Amazon SageMaker 进行模型训练的用户,SageMaker 训练计划提供了类似的预留能力。用户可创建训练计划,指定训练作业的 GPU 需求和时间窗口,AWS 会确保在指定时段内提供所需容量。这特别适合需要定期或定时执行的训练任务,如夜间训练或批量模型更新。
如何选择?
| 场景 | 推荐方案 |
|---|---|
| 短期、不可中断的训练/推理任务 | EC2 Capacity Blocks for ML |
| 定期或计划性 SageMaker 训练作业 | SageMaker 训练计划 |
| 可容忍延迟的探索性实验 | 按需实例 |
| 成本优先、可中断的任务 | Spot 实例 |
实际应用案例
一家 AI 初创公司需要在产品发布前对推荐模型进行 48 小时的负载测试。通过 EC2 Capacity Blocks for ML,他们提前一周预留了所需的 p4d.24xlarge 实例,确保测试期间 GPU 容量可用,测试完成后立即释放,避免了按需实例可能遇到的容量不足或额外空闲成本。
另一家金融科技公司使用 SageMaker 训练计划,将每日模型重训练安排在凌晨 2-4 点,利用低峰时段预留 GPU 容量,既保证了训练按时完成,又优化了成本。
总结
短期 GPU 容量管理不再需要“碰运气”。EC2 Capacity Blocks for ML 和 SageMaker 训练计划为时间敏感的工作负载提供了确定性和灵活性的平衡,帮助企业在 GPU 稀缺的环境下高效运行 ML 工作流。