NVIDIA Nemotron 3 Ultra 登陆 SageMaker JumpStart，推理加速5倍成本降30%

NVIDIA 与 AWS 联手，将新一代前沿推理模型 Nemotron 3 Ultra 以“零日”方式集成至 Amazon SageMaker JumpStart，用户只需一键即可完成部署。该模型专为长时间运行的自主智能体（Agentic AI）工作负载设计，采用创新的混合 Transformer-Mamba MoE 架构，总参数量达 5500 亿，但每次前向传播仅激活 550 亿参数，在保持高推理吞吐的同时，支持高达 100 万 token 的上下文长度。

性能与成本优势

据官方数据，Nemotron 3 Ultra 在复杂智能体任务中可实现 5 倍推理加速 和 最高 30% 的成本降低。这得益于其优化的 NVFP4 格式，使得模型部署更高效、更经济。对于需要多步推理、工具调用、子智能体协调以及自我纠错的长时间任务，传统密集模型往往因 token 消耗巨大而成本飙升，而 Nemotron 3 Ultra 的 MoE 架构恰好解决了这一痛点。

智能体 AI 的新范式

智能体 AI 并非简单的问答，它需要规划、调用工具、委派子任务、检查结果并持续迭代数百轮。每一步都增加 token 和算力消耗，因此关键指标是任务完成准确率、完成时间和单任务成本。Nemotron 3 Ultra 通过仅激活部分参数，在百万 token 上下文下仍保持高吞吐，使智能体能够在数百轮交互中维持连贯推理，同时控制成本。

典型应用场景

智能体编排器：协调多个子智能体，管理长链工具调用中的状态
代码智能体：在大型代码库中生成、测试、调试并迭代代码
深度研究：综合多源信息，在扩展上下文中保持连贯推理
复杂企业工作流：自动化多步骤业务流程，支持决策分支和错误恢复

快速上手

通过 SageMaker JumpStart，用户可直接在 AWS 控制台中一键部署 Nemotron 3 Ultra，无需手动配置基础设施。这一集成降低了前沿模型的使用门槛，使企业能够快速将高级推理能力融入智能体应用。

NVIDIA Nemotron 3 Ultra 现已登陆 Amazon SageMaker JumpStart

性能与成本优势

智能体 AI 的新范式

典型应用场景

快速上手

延伸阅读

相关资讯