亚马逊 SageMaker AI 推出 G7e 实例,搭载 NVIDIA RTX PRO 6000 Blackwell GPU,加速生成式 AI 推理
随着生成式 AI 需求的持续增长,开发者和企业迫切需要更灵活、更具成本效益且性能更强大的加速器来满足其需求。亚马逊云科技近日宣布,在 Amazon SageMaker AI 上推出由 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU 提供支持的 G7e 实例。这一发布标志着云端 GPU 加速推理能力的一次重大飞跃,为部署和运行大型开源基础模型提供了更具性价比的高性能选择。
核心规格与性能跃升
G7e 实例提供 1、2、4、8 个 GPU 的节点配置选项,每个 GPU 配备 96 GB 的 GDDR7 显存。与上一代 G6e 实例相比,其单 GPU 显存容量翻倍,总显存带宽提升至 1,597 GB/s。在 8-GPU 的顶级配置(G7e.48xlarge)上,可聚合高达 768 GB 的 GPU 显存,并支持高达 1,600 Gbps 的网络吞吐量(使用 EFA)。
根据官方数据,G7e 实例的推理性能相比 G6e 实例提升高达 2.3 倍。网络带宽相比 G6e 提升 4 倍,相比更早的 G5 实例提升 16 倍,这为低延迟的多节点推理和模型微调等复杂场景提供了前所未有的支持。
支持更大规模模型部署
显存容量的大幅提升直接扩展了可部署模型的规模边界。G7e 实例能够更高效地承载参数规模庞大的开源基础模型:
- 单 GPU 节点(G7e.2xlarge):可部署高达 350 亿参数 的模型(如 Qwen3.5-35B-A3B)。
- 4 GPU 节点(G7e.24xlarge):可部署高达 1500 亿参数 的模型。
- 8 GPU 节点(G7e.48xlarge):可部署高达 3000 亿参数 的模型。
这意味着,像 GPT-OSS-120B、Nemotron-3-Super-120B-A12B 这类百亿级参数的开源大模型,现在可以在单个 G7e 实例节点上获得更优的推理性能和成本效益。
对行业的意义与适用场景
G7e 实例的推出,进一步降低了企业使用尖端生成式 AI 技术的门槛和成本。其高显存、高带宽的特性,使其特别适合以下场景:
- 大规模语言模型推理:为需要实时或近实时响应的 AI 应用提供强大的后端算力支持。
- 复杂模型微调与实验:更大的显存允许在云端对大型模型进行更高效的参数调整,而无需管理庞大的本地 GPU 集群。
- 成本敏感的高性能需求:为那些希望在保持高性能的同时优化推理工作负载成本的组织提供了一个新的选项。
通过将最新的 NVIDIA Blackwell 架构 GPU 与 Amazon SageMaker 的托管服务相结合,AWS 持续强化其在 AI 基础设施层的竞争力,为开发者提供了一个从模型训练、调优到部署、推理的完整、高性能且可扩展的云上 AI 工作流解决方案。