SheepNav
新上线今天0 投票

Amazon SageMaker AI 推出容器缓存,模型扩展速度提升 2 倍

亚马逊云科技今日宣布,Amazon SageMaker AI 推理服务正式支持容器镜像缓存功能,这是其在“更快扩展”优化路线上的最新里程碑。该功能通过缓存推理容器镜像,可将生成式 AI 模型在横向扩展事件中的端到端延迟缩短高达 2 倍,显著提升模型部署的响应速度和资源利用率。

为什么容器缓存如此重要?

在生成式 AI 模型快速普及的当下,推理工作负载的弹性扩展能力成为关键瓶颈。传统模式下,当流量激增触发新实例启动时,系统需要从远程仓库拉取完整的容器镜像——尤其是大模型镜像(动辄数 GB)的下载解压过程,往往占据分钟级的启动时间,导致服务响应滞后。Amazon SageMaker AI 的容器缓存机制,通过在计算节点本地或就近存储常用镜像层,避免了重复拉取,从而将扩展延迟从“分钟级”压缩至“秒级”。

技术实现与效果

该功能适用于 SageMaker AI 推理端点(Inference Endpoints)的自动扩展场景。当新实例被调度时,系统会优先检查本地缓存中是否已有目标镜像的层数据:若命中缓存,则直接加载运行;若未命中,仍回退至远程拉取。对于频繁部署的模型,缓存命中率可达 90% 以上,实测端到端延迟优化达 2 倍。这意味着在流量突发时,模型可以更快地开始处理推理请求,用户几乎感受不到扩展带来的冷启动延迟。

行业背景与价值

当前,生成式 AI 应用正从实验阶段走向生产部署,企业对推理基础设施的弹性、成本和响应速度提出了更高要求。容器缓存直击了“扩展效率”这一核心痛点——它不改变模型本身,而是优化底层基础设施的调度逻辑。对于运行多个模型版本或频繁更新镜像的团队,该功能可显著减少因镜像拉取导致的资源闲置,降低 GPU 等昂贵计算资源的等待成本。

如何启用?

该功能现已面向所有 AWS 区域开放,用户无需额外配置即可自动受益。SageMaker AI 会在端点创建或更新时自动启用缓存,同时支持监控缓存命中率等指标。对于有特殊合规或网络隔离需求的场景,用户也可通过自定义配置控制缓存行为。

总结

Amazon SageMaker AI 的容器缓存是“快”与“省”的又一次结合——它让模型扩展更快,同时降低了不必要的网络传输成本。在生成式 AI 推理需求持续增长的当下,这一优化无疑将帮助更多企业实现高性能、低延迟的 AI 服务部署。

延伸阅读

  1. 用 Amazon Bedrock Guardrails InvokeGuardrailChecks API 保障您的智能体 AI 应用安全
  2. 亚马逊73%折扣:联想IdeaPad 1i降至300美元,性价比之选
  3. Anthropic 与特朗普政府的最新冲突,销售数据却显示可能助其一臂之力
查看原文