EC2 Capacity Blocks for ML 和 SageMaker 训练计划：短期 GPU 容量解决方案

随着 GPU 需求激增，短期 GPU 容量获取成为 ML 工作负载的一大挑战。AWS 推出了 EC2 Capacity Blocks for ML 和 SageMaker 训练计划，为短期、时间敏感的 ML 任务提供预留 GPU 容量，解决了按需实例和 Spot 实例在可用性上的不确定性。

为什么需要短期 GPU 容量方案？

GPU 供不应求已是行业常态。对于负载测试、模型验证、限时工作坊或发布前准备推理容量等短期任务，传统方案各有短板：

按需实例：启动灵活，但容量随区域供需波动，一旦释放实例可能无法立即重新获取，导致用户被迫保持实例运行，增加成本。
Spot 实例：成本可降低 90%，但可用性不确定，不适合不能中断的关键任务。
按需容量预留（ODCR）：适用于长期稳态工作负载，但短期可用性有限，且按需计费无成本优势。

两大新方案：EC2 Capacity Blocks for ML 与 SageMaker 训练计划

EC2 Capacity Blocks for ML

该服务允许用户提前预留 GPU 容量，以小时为单位购买，最长可预留 14 天。它专为短期、确定性的工作负载设计，例如：

模型训练和调优
推理测试
模型评估和验证
限时活动或工作坊

用户只需指定所需实例类型、数量、区域和时长，即可锁定容量，避免按需实例的可用性风险。计费按预留时段收取，无需长期承诺。

SageMaker 训练计划

对于使用 Amazon SageMaker 进行模型训练的用户，SageMaker 训练计划提供了类似的预留能力。用户可创建训练计划，指定训练作业的 GPU 需求和时间窗口，AWS 会确保在指定时段内提供所需容量。这特别适合需要定期或定时执行的训练任务，如夜间训练或批量模型更新。

如何选择？

场景	推荐方案
短期、不可中断的训练/推理任务	EC2 Capacity Blocks for ML
定期或计划性 SageMaker 训练作业	SageMaker 训练计划
可容忍延迟的探索性实验	按需实例
成本优先、可中断的任务	Spot 实例

实际应用案例

一家 AI 初创公司需要在产品发布前对推荐模型进行 48 小时的负载测试。通过 EC2 Capacity Blocks for ML，他们提前一周预留了所需的 p4d.24xlarge 实例，确保测试期间 GPU 容量可用，测试完成后立即释放，避免了按需实例可能遇到的容量不足或额外空闲成本。

另一家金融科技公司使用 SageMaker 训练计划，将每日模型重训练安排在凌晨 2-4 点，利用低峰时段预留 GPU 容量，既保证了训练按时完成，又优化了成本。

总结

短期 GPU 容量管理不再需要“碰运气”。EC2 Capacity Blocks for ML 和 SageMaker 训练计划为时间敏感的工作负载提供了确定性和灵活性的平衡，帮助企业在 GPU 稀缺的环境下高效运行 ML 工作流。

用 EC2 Capacity Blocks for ML 和 SageMaker 训练计划锁定短期 GPU 容量