英伟达发布开源全模态模型Nemotron 3 Nano Omni,为企业AI Agent提供统一底座
4月29日,英伟达正式推出Nemotron 3 Nano Omni——一款开源的全模态推理模型,旨在为企业级AI Agent提供一个集成化的基础模型底座,替代当前智能体系统中常见的碎片化视觉-语音-语言模型链条。
据介绍,该模型将视频、音频、图像和文本的统一多模态推理整合于单个模型中。通过减少推理跳数与编排复杂度,Nemotron 3 Nano Omni能够有效降低推理成本,同时增强跨模态的上下文一致性。在智能体系统中,该模型可作为多模态感知与上下文的子Agent,使智能体在单个共享的“感知-行动”循环中同时处理视觉、音频和文本输入,从而提升收敛速度,简化系统架构。
在文档智能领域的主流榜单(如MMlongbench-Doc和OCRBenchV2)上,Nemotron 3 Nano Omni取得了同类领先的准确率。在视频与音频理解基准(WorldSense、DailyOmni、VoiceBench)中,同样表现优异。根据行业基准MediaPerf的评估(该基准基于真实媒体数据与生成任务,评估视频理解模型的性能、成本与吞吐量),Nemotron 3 Nano Omni在所有任务中实现了最高吞吐量,并且在视频级标注场景下推理成本最低。
英伟达方面表示,在固定交互延迟阈值下,该模型在视频推理任务中的有效系统容量相比其他开放式全模态模型最高可提升约9.2倍;在多文档推理任务中,最高提升约7.4倍。
Nemotron 3 Nano Omni采用30B-A3B混合专家(MoE)架构,可根据不同任务和模态动态激活专家模块,从而兼顾高吞吐量与可扩展的多模态性能。其模型权重、数据集和训练配方已完全向开发者开放,支持在本地、云端或企业环境中定制、部署和集成多模态子Agent。
在架构设计上,该模型融合了Mamba层(提升序列与内存效率)和Transformer层(实现精准推理),内存与计算效率最高可提升4倍。
该模型的训练流程涵盖适配器与编码器训练(约1270亿跨模态token)、多阶段监督微调及后监督强化学习(超过230万次环境交互)。目前,模型权重已在Hugging Face平台开放下载,并即将作为NVIDIA NIM微服务上线。英伟达还同步公开了完整的端到端训练与评估配方、部署指南、微调食谱以及相关开放数据集。