Amazon SageMaker AI 推出容器缓存,模型扩展速度提升 2 倍
亚马逊云科技今日宣布,Amazon SageMaker AI 推理服务正式支持容器镜像缓存功能,这是其在“更快扩展”优化路线上的最新里程碑。该功能通过缓存推理容器镜像,可将生成式 AI 模型在横向扩展事件中的端到端延迟缩短高达 2 倍,显著提升模型部署的响应速度和资源利用率。
为什么容器缓存如此重要?
在生成式 AI 模型快速普及的当下,推理工作负载的弹性扩展能力成为关键瓶颈。传统模式下,当流量激增触发新实例启动时,系统需要从远程仓库拉取完整的容器镜像——尤其是大模型镜像(动辄数 GB)的下载解压过程,往往占据分钟级的启动时间,导致服务响应滞后。Amazon SageMaker AI 的容器缓存机制,通过在计算节点本地或就近存储常用镜像层,避免了重复拉取,从而将扩展延迟从“分钟级”压缩至“秒级”。
技术实现与效果
该功能适用于 SageMaker AI 推理端点(Inference Endpoints)的自动扩展场景。当新实例被调度时,系统会优先检查本地缓存中是否已有目标镜像的层数据:若命中缓存,则直接加载运行;若未命中,仍回退至远程拉取。对于频繁部署的模型,缓存命中率可达 90% 以上,实测端到端延迟优化达 2 倍。这意味着在流量突发时,模型可以更快地开始处理推理请求,用户几乎感受不到扩展带来的冷启动延迟。
行业背景与价值
当前,生成式 AI 应用正从实验阶段走向生产部署,企业对推理基础设施的弹性、成本和响应速度提出了更高要求。容器缓存直击了“扩展效率”这一核心痛点——它不改变模型本身,而是优化底层基础设施的调度逻辑。对于运行多个模型版本或频繁更新镜像的团队,该功能可显著减少因镜像拉取导致的资源闲置,降低 GPU 等昂贵计算资源的等待成本。
如何启用?
该功能现已面向所有 AWS 区域开放,用户无需额外配置即可自动受益。SageMaker AI 会在端点创建或更新时自动启用缓存,同时支持监控缓存命中率等指标。对于有特殊合规或网络隔离需求的场景,用户也可通过自定义配置控制缓存行为。
总结
Amazon SageMaker AI 的容器缓存是“快”与“省”的又一次结合——它让模型扩展更快,同时降低了不必要的网络传输成本。在生成式 AI 推理需求持续增长的当下,这一优化无疑将帮助更多企业实现高性能、低延迟的 AI 服务部署。
