Amazon SageMaker AI 容器缓存：模型扩展速度提升2倍

亚马逊云科技今日宣布，Amazon SageMaker AI 推理服务正式支持容器镜像缓存功能，这是其在“更快扩展”优化路线上的最新里程碑。该功能通过缓存推理容器镜像，可将生成式 AI 模型在横向扩展事件中的端到端延迟缩短高达 2 倍，显著提升模型部署的响应速度和资源利用率。

为什么容器缓存如此重要？

在生成式 AI 模型快速普及的当下，推理工作负载的弹性扩展能力成为关键瓶颈。传统模式下，当流量激增触发新实例启动时，系统需要从远程仓库拉取完整的容器镜像——尤其是大模型镜像（动辄数 GB）的下载解压过程，往往占据分钟级的启动时间，导致服务响应滞后。Amazon SageMaker AI 的容器缓存机制，通过在计算节点本地或就近存储常用镜像层，避免了重复拉取，从而将扩展延迟从“分钟级”压缩至“秒级”。

技术实现与效果

该功能适用于 SageMaker AI 推理端点（Inference Endpoints）的自动扩展场景。当新实例被调度时，系统会优先检查本地缓存中是否已有目标镜像的层数据：若命中缓存，则直接加载运行；若未命中，仍回退至远程拉取。对于频繁部署的模型，缓存命中率可达 90% 以上，实测端到端延迟优化达 2 倍。这意味着在流量突发时，模型可以更快地开始处理推理请求，用户几乎感受不到扩展带来的冷启动延迟。

行业背景与价值

当前，生成式 AI 应用正从实验阶段走向生产部署，企业对推理基础设施的弹性、成本和响应速度提出了更高要求。容器缓存直击了“扩展效率”这一核心痛点——它不改变模型本身，而是优化底层基础设施的调度逻辑。对于运行多个模型版本或频繁更新镜像的团队，该功能可显著减少因镜像拉取导致的资源闲置，降低 GPU 等昂贵计算资源的等待成本。

如何启用？

该功能现已面向所有 AWS 区域开放，用户无需额外配置即可自动受益。SageMaker AI 会在端点创建或更新时自动启用缓存，同时支持监控缓存命中率等指标。对于有特殊合规或网络隔离需求的场景，用户也可通过自定义配置控制缓存行为。

总结

Amazon SageMaker AI 的容器缓存是“快”与“省”的又一次结合——它让模型扩展更快，同时降低了不必要的网络传输成本。在生成式 AI 推理需求持续增长的当下，这一优化无疑将帮助更多企业实现高性能、低延迟的 AI 服务部署。

Amazon SageMaker AI 推出容器缓存，模型扩展速度提升 2 倍

为什么容器缓存如此重要？

技术实现与效果

行业背景与价值

如何启用？

总结

延伸阅读

相关资讯