新上线今天0 投票
NVIDIA Nemotron 3 Ultra 现已登陆 Amazon SageMaker JumpStart
NVIDIA 与 AWS 联手,将新一代前沿推理模型 Nemotron 3 Ultra 以“零日”方式集成至 Amazon SageMaker JumpStart,用户只需一键即可完成部署。该模型专为长时间运行的自主智能体(Agentic AI)工作负载设计,采用创新的混合 Transformer-Mamba MoE 架构,总参数量达 5500 亿,但每次前向传播仅激活 550 亿参数,在保持高推理吞吐的同时,支持高达 100 万 token 的上下文长度。
性能与成本优势
据官方数据,Nemotron 3 Ultra 在复杂智能体任务中可实现 5 倍推理加速 和 最高 30% 的成本降低。这得益于其优化的 NVFP4 格式,使得模型部署更高效、更经济。对于需要多步推理、工具调用、子智能体协调以及自我纠错的长时间任务,传统密集模型往往因 token 消耗巨大而成本飙升,而 Nemotron 3 Ultra 的 MoE 架构恰好解决了这一痛点。
智能体 AI 的新范式
智能体 AI 并非简单的问答,它需要规划、调用工具、委派子任务、检查结果并持续迭代数百轮。每一步都增加 token 和算力消耗,因此关键指标是任务完成准确率、完成时间和单任务成本。Nemotron 3 Ultra 通过仅激活部分参数,在百万 token 上下文下仍保持高吞吐,使智能体能够在数百轮交互中维持连贯推理,同时控制成本。
典型应用场景
- 智能体编排器:协调多个子智能体,管理长链工具调用中的状态
- 代码智能体:在大型代码库中生成、测试、调试并迭代代码
- 深度研究:综合多源信息,在扩展上下文中保持连贯推理
- 复杂企业工作流:自动化多步骤业务流程,支持决策分支和错误恢复
快速上手
通过 SageMaker JumpStart,用户可直接在 AWS 控制台中一键部署 Nemotron 3 Ultra,无需手动配置基础设施。这一集成降低了前沿模型的使用门槛,使企业能够快速将高级推理能力融入智能体应用。
