SheepNav
新上线昨天0 投票

NVIDIA Nemotron 3 Nano Omni 现已在 Amazon SageMaker JumpStart 上线

快讯:NVIDIA Nemotron 3 Nano Omni 登陆 SageMaker JumpStart

亚马逊云科技与 NVIDIA 联合宣布,NVIDIA Nemotron 3 Nano Omni 多模态大模型即日起在 Amazon SageMaker JumpStart 上提供零日可用。 这款拥有 300 亿总参数(30B A3B)的模型,采用 Mamba2 Transformer 混合专家(MoE)架构,融合了视频、音频、图像和文本理解能力,旨在为企业的智能体工作流提供统一的“感知中枢”。

架构与核心能力

Nemotron 3 Nano Omni 并非简单的多模型拼接,而是将三大组件整合为一个端到端系统:

  • 语言骨干:Nemotron 3 Nano LLM
  • 视觉编码器:CRADIO v4-H(处理图像与视频)
  • 语音编码器:Parakeet(负责音频转录与理解)

该模型支持 131K token 的上下文长度,具备思维链推理、工具调用、JSON 输出以及词级时间戳转录能力。模型以 FP8 精度在 SageMaker JumpStart 上提供,兼顾了企业级工作负载的准确性与效率,并采用 NVIDIA Open Model Agreement 商用许可。

解决企业智能体的痛点

当前企业中的智能体系统通常需要为视觉、语音和语言分别调用不同模型,这导致延迟高、编排复杂、上下文碎片化,且成本与故障概率随模型数量增加而上升。Nemotron 3 Nano Omni 通过单一推理通路同时处理多模态输入,充当智能体系统中的 多模态感知子智能体,为上层决策提供“眼睛和耳朵”。

典型应用场景

  1. 屏幕理解与文档分析:自动解读 UI 界面、图表、PDF 等视觉内容。
  2. 音视频内容处理:同时转录语音并分析视频画面,生成带时间戳的结构化摘要。
  3. 多模态对话助手:接收用户上传的图片、语音或视频片段,结合文本指令进行推理回答。
  4. 自动化工作流:在客服、数据标注、内容审核等环节中,替代多个专用模型串联的复杂管线。

部署与获取

用户可通过 Amazon SageMaker JumpStart 控制台直接部署模型,或使用 SDK 进行编程调用。由于模型已针对 SageMaker 优化,企业可以快速将其集成到现有 AI 应用中,而无需管理底层基础设施。

NVIDIA Nemotron 3 Nano Omni 的发布,标志着多模态模型在企业级落地中迈出了重要一步——从“拼凑多模型”走向“原生多模态”。对于正在构建下一代 AI 智能体的团队来说,这或许是一个值得关注的架构选择。

延伸阅读

  1. 无需矩阵组装与训练:随机PDE能量驱动框架实现高效稳定求解
  2. 多智能体深度强化学习中的图神经网络通信综述
  3. 信息瓶颈理论统一KV缓存驱逐策略,CapKV实现理论驱动的内存优化
查看原文