NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart，多模态 AI 模型

快讯：NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart

亚马逊云科技与 NVIDIA 联合宣布，NVIDIA Nemotron 3 Nano Omni 多模态大模型即日起在 Amazon SageMaker JumpStart 上提供零日可用。 这款拥有 300 亿总参数（30B A3B）的模型，采用 Mamba2 Transformer 混合专家（MoE）架构，融合了视频、音频、图像和文本理解能力，旨在为企业的智能体工作流提供统一的“感知中枢”。

架构与核心能力

Nemotron 3 Nano Omni 并非简单的多模型拼接，而是将三大组件整合为一个端到端系统：

语言骨干：Nemotron 3 Nano LLM
视觉编码器：CRADIO v4-H（处理图像与视频）
语音编码器：Parakeet（负责音频转录与理解）

该模型支持 131K token 的上下文长度，具备思维链推理、工具调用、JSON 输出以及词级时间戳转录能力。模型以 FP8 精度在 SageMaker JumpStart 上提供，兼顾了企业级工作负载的准确性与效率，并采用 NVIDIA Open Model Agreement 商用许可。

解决企业智能体的痛点

当前企业中的智能体系统通常需要为视觉、语音和语言分别调用不同模型，这导致延迟高、编排复杂、上下文碎片化，且成本与故障概率随模型数量增加而上升。Nemotron 3 Nano Omni 通过单一推理通路同时处理多模态输入，充当智能体系统中的 多模态感知子智能体，为上层决策提供“眼睛和耳朵”。

典型应用场景

屏幕理解与文档分析：自动解读 UI 界面、图表、PDF 等视觉内容。
音视频内容处理：同时转录语音并分析视频画面，生成带时间戳的结构化摘要。
多模态对话助手：接收用户上传的图片、语音或视频片段，结合文本指令进行推理回答。
自动化工作流：在客服、数据标注、内容审核等环节中，替代多个专用模型串联的复杂管线。

部署与获取

用户可通过 Amazon SageMaker JumpStart 控制台直接部署模型，或使用 SDK 进行编程调用。由于模型已针对 SageMaker 优化，企业可以快速将其集成到现有 AI 应用中，而无需管理底层基础设施。

NVIDIA Nemotron 3 Nano Omni 的发布，标志着多模态模型在企业级落地中迈出了重要一步——从“拼凑多模型”走向“原生多模态”。对于正在构建下一代 AI 智能体的团队来说，这或许是一个值得关注的架构选择。

NVIDIA Nemotron 3 Nano Omni 现已在 Amazon SageMaker JumpStart 上线

快讯：NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart

架构与核心能力

解决企业智能体的痛点

典型应用场景

部署与获取

延伸阅读

相关资讯