NVIDIA Nemotron 3 Nano Omni 现已在 Amazon SageMaker JumpStart 上线
快讯:NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart
亚马逊云科技与 NVIDIA 联合宣布,NVIDIA Nemotron 3 Nano Omni 多模态大模型即日起在 Amazon SageMaker JumpStart 上提供零日可用。 这款拥有 300 亿总参数(30B A3B)的模型,采用 Mamba2 Transformer 混合专家(MoE)架构,融合了视频、音频、图像和文本理解能力,旨在为企业的智能体工作流提供统一的“感知中枢”。
架构与核心能力
Nemotron 3 Nano Omni 并非简单的多模型拼接,而是将三大组件整合为一个端到端系统:
- 语言骨干:Nemotron 3 Nano LLM
- 视觉编码器:CRADIO v4-H(处理图像与视频)
- 语音编码器:Parakeet(负责音频转录与理解)
该模型支持 131K token 的上下文长度,具备思维链推理、工具调用、JSON 输出以及词级时间戳转录能力。模型以 FP8 精度在 SageMaker JumpStart 上提供,兼顾了企业级工作负载的准确性与效率,并采用 NVIDIA Open Model Agreement 商用许可。
解决企业智能体的痛点
当前企业中的智能体系统通常需要为视觉、语音和语言分别调用不同模型,这导致延迟高、编排复杂、上下文碎片化,且成本与故障概率随模型数量增加而上升。Nemotron 3 Nano Omni 通过单一推理通路同时处理多模态输入,充当智能体系统中的 多模态感知子智能体,为上层决策提供“眼睛和耳朵”。
典型应用场景
- 屏幕理解与文档分析:自动解读 UI 界面、图表、PDF 等视觉内容。
- 音视频内容处理:同时转录语音并分析视频画面,生成带时间戳的结构化摘要。
- 多模态对话助手:接收用户上传的图片、语音或视频片段,结合文本指令进行推理回答。
- 自动化工作流:在客服、数据标注、内容审核等环节中,替代多个专用模型串联的复杂管线。
部署与获取
用户可通过 Amazon SageMaker JumpStart 控制台直接部署模型,或使用 SDK 进行编程调用。由于模型已针对 SageMaker 优化,企业可以快速将其集成到现有 AI 应用中,而无需管理底层基础设施。
NVIDIA Nemotron 3 Nano Omni 的发布,标志着多模态模型在企业级落地中迈出了重要一步——从“拼凑多模型”走向“原生多模态”。对于正在构建下一代 AI 智能体的团队来说,这或许是一个值得关注的架构选择。