SheepNav
新上线今天0 投票

AWS SageMaker JumpStart 推出基于用例的优化部署功能

AWS SageMaker JumpStart 推出基于用例的优化部署功能

亚马逊云科技(AWS)近日宣布,其机器学习平台 Amazon SageMaker JumpStart 推出了全新的 优化部署(optimized deployments) 功能。这一更新旨在解决用户在将预训练模型部署到生产环境时,面临的配置复杂性与特定场景性能需求不匹配的痛点。

从通用配置到场景化优化

SageMaker JumpStart 本身是一个模型中心,提供了涵盖广泛问题类型的预训练模型,帮助用户快速启动 AI 工作负载。用户可以通过预设的部署选项,快速将选中的模型部署到 SageMaker AI 托管推理端点SageMaker HyperPod 集群

在优化部署功能推出前,用户主要基于 预期并发用户数 来配置部署,系统会提供 P50 延迟、首词生成时间(TTFT)和吞吐量(每秒每用户令牌数)等指标的可见性。这种通用配置方式虽然简单,但缺乏对具体任务类型的感知。

新功能的核心价值

新的优化部署功能引入了 预定义的部署配置,这些配置专门为特定的用例设计,例如:

  • 内容生成
  • 内容摘要
  • 问答(Q&A)

每个用例都可能需要不同的资源配置来优化性能。更重要的是,性能的定义不再局限于延迟。根据业务目标,用户可能更关注:

  • 吞吐量最大化
  • 每令牌成本最低化
  • 在特定延迟约束下的最佳性价比

现在,用户在 SageMaker Studio 中选择支持优化部署的模型并点击“部署”后,会看到一个可折叠的“性能”窗口。在这里,他们可以根据自己的核心用例和性能约束(如“优化延迟”或“优化吞吐量”),选择预设的优化配置方案。系统会基于此推荐相应的实例类型和配置,同时保持对部署细节(如预估成本、性能指标)的透明展示。

对行业的意义

这一更新反映了 AI 模型部署领域的一个明显趋势:从“一刀切”的通用部署,转向精细化、场景驱动的运维。随着大语言模型(LLM)和生成式 AI 应用的普及,不同的应用场景对推理的实时性、吞吐量和成本有着天壤之别。一个聊天机器人的延迟敏感度与一个批量文档处理任务完全不同。

SageMaker JumpStart 通过提供用例级别的预设配置,降低了高级部署调优的技术门槛。它让数据科学家和工程师能够更专注于业务逻辑,而非底层基础设施的复杂参数调整。这有助于加速 AI 项目从实验阶段到生产落地的进程,是 AWS 巩固其云端 AI/ML 服务领导地位的关键一步。

开始使用

要使用此功能,用户需要具备:

  1. 一个 AWS 账户
  2. 一个 SageMaker Studio 域
  3. 一个拥有创建模型和端点权限的 AWS IAM 角色

满足条件后,用户即可在 SageMaker Studio 的模型列表中,筛选支持优化部署的模型,并体验这一更加智能的部署流程。


小结:SageMaker JumpStart 的优化部署功能,通过为内容生成、摘要、问答等常见场景提供预配置方案,实现了部署的“任务感知”。它简化了性能调优,让用户能依据真实的业务指标(而不仅仅是技术参数)来部署模型,是提升 AI 工程化效率的重要工具。

延伸阅读

  1. 波士顿动力与谷歌DeepMind联手,让Spot机器人学会“思考”
  2. 厌倦了 Gemini 打断你?Google Home 更新修复此问题并带来更多改进
  3. 英国政府AI安全研究所测试Mythos AI:首个完成复杂多步网络渗透挑战的模型
查看原文