在 RTX 4090 上运行 NVIDIA Nemotron Nano Omni 30B 多模态模型
NVIDIA 在 2026 年 4 月 28 日发布了 Nemotron 3 Nano Omni。这篇文章写于发布后不到一周。这个模型的卖点非常直接:它是第一个在单一架构中原生支持视频、音频、图像和文本四种模态的 30B 级开源模型。不需要把 ASR 和视觉管线拼凑在一起——一个模型,搞定全部。
但真正的问题在于:这东西能在消费级 GPU 上跑吗?官方给出的最低配置是 BF16 需要 H100 80GB、FP8 需要 L40S 48GB、NVFP4 需要 RTX 5090 32GB。而目前最普及的高端消费卡 RTX 4090(24GB 显存)——压根不在名单上。
我花了一上午搞清楚这到底是不是真的。
架构:它到底特别在哪
Nemotron Nano Omni 不是一个简单的视觉语言模型加了个音频模块。它是一个三组件的系统工程,底层依赖 NVIDIA 对硬件的深度理解:
LLM 主干:Nemotron 3 Nano 30B-A3B —— Mamba2-Transformer 混合架构的混合专家模型(MoE)。总参数量 310 亿,但每个 token 只激活约 30 亿参数。这也是 NVIDIA 纯文本 Nemotron Nano 系列使用的主干,正是它让模型在消费级硬件上出人意料地快。Mamba2 的线性时间注意力可以在长上下文中避免平方级内存膨胀,而 Transformer 层负责精确推理。
视觉编码器:CRADIO v4-H —— "H" 代表高分辨率变体,同时处理静态图片和视频帧。它将视觉 token 送入 LLM,支持最长 2 分钟的 1080p 视频(1fps 采样)或 720p 视频(2fps)。一个 token 剪枝技术会丢弃 50% 的冗余视觉 token,将预填充延迟减半。
语音编码器:Parakeet tdt-0.6b —— NVIDIA 自研的 CTC/RNN-T 编码器,支持最长一小时的音频输入,在转录过程中输出词级时间戳。这个细节对企业级的会议智能场景非常重要。
输出仅为文本——没有图像或音频生成能力。但在文本输出中,模型支持推理链(CoT)、JSON 结构化输出、工具调用以及 ASR 时间戳。
与 Qwen3 的关系
README 中有一句话被很多评测忽略,但 NVIDIA 写得非常直白:Nemotron Nano Omni 是"基于 Qwen3-VL-30B-A3B-Instruct 改进的"——同列的训练源还包括 Qwen3.5-122B、Qwen2.5-VL-72B 和 gpt-oss-120b。
这不是 NVIDIA 从零训练的作品,而是一个蒸馏加增强的策略。NVIDIA 拿了 Qwen3-VL 的 30B-A3B 架构,把它的 ViT 视觉编码器换成了自研的 CRADIO v4-H,加上了 Parakeet 音频通路,嵌入了 Mamba2 混合层,再在 NVIDIA 自己的 Nemotron 数据集上重新训练。结果是一个继承了 Qwen3-VL 强大视觉推理能力、同时获得了原生音频和视频理解能力的模型——而原版 Qwen3-VL 根本不支持音频。
基准分数:数字说话
NVIDIA 在 14 项多模态基准测试上公布了成绩。以下是关闭推理模式下的关键数据:
| 基准测试 | BF16 | FP8 | NVFP4 |
|---|---|---|---|
| MathVista_MINI | 71.9 | 71.1 | 71.3 |
| OCRBenchV2 (EN) | 65.8 | 65.6 | 65.8 |
| Video MME | 70.8 | 69.4 | 69.6 |
| Daily Omni | 74.5 | 74.1 | 74.2 |
| CVBench2D | 84.2 | 85.6 | 85.3 |
| 9项非ASR均值 | 65.8 | 65.4 | 65.4 |
量化表现相当惊艳:FP8 相比 BF16 平均只损失 0.4 分,NVFP4 只损失 0.38 分。从 61.5 GB 降到 20.9 GB,精度几乎无损——前提是你有能跑这些格式的硬件。
语音识别方面,Tedium Long 词错误率 3.11%,HF-ASR 5.95%,各精度之间的差距在 0.03 个百分点以内。
在 RTX 4090 上的实测
测试环境:RTX 4090 24GB,Ollama 0.21.0,Ubuntu Linux。
第一步:选择正确的量化级别
NVFP4 格式需要 Blackwell 架构(RTX 5090 系列)。对 4090 来说,GGUF 是唯一可行的路径。我选择了 Unsloth 量化矩阵中的 IQ3_S 版本——模型 17.5 GB + 多模态投影器 1.5 GB,总计约 19 GB。剩余约 3.5 GB 给 KV cache,在 8192 上下文下刚好够用。
第二步:导入 Ollama
模型还没有进入 Ollama 的官方仓库,通过 GGUF Modelfile 导入的方式非常顺滑:
ollama create nemotron-nano-omni-text -f Modelfile
# 模型会复制到 Ollama 的 blob 存储,之后可以删除原 GGUF 文件
冷启动加载时间:9.27 秒。后续调用瞬时响应。
第三步:文本推理实测数据
我在几种典型任务上做了测试,以下是真实数据:
模型加载: 9.27s
Prompt 处理速度: 673-1073 tokens/s(随 prompt 长度变化)
文本生成速度: 196-201 tokens/s ← 稳定在此区间
GPU 利用率: 91%
显存占用: ~21.4 GB(模型 + KV cache)
一个 30B MoE 在单张消费级显卡上达到 200 tokens/s 的生成速度,这是真的令人惊喜。作为对比,同样的硬件上跑 Qwen2.5-7B 这样的密集 7B 模型,生成速度大概在 110-130 t/s。MoE 架构的每 token 仅 3B 激活参数在这里起了决定性作用。
表现优秀的方面
-
英文技术推理:很强。模型能产出连贯的思维链推理,包含自我验证步骤。让它用三句话解释量子计算,它先列出思维清单、逐句对照约束条件检查,然后输出干净的结果。
-
中文能力:出乎意料地好。尽管 README 标注是"English only",当你用中文让它解释注意力机制并给出 PyTorch 实现时,它输出了流畅的中文、正确的数学公式和可工作的 Python 代码。回复质量不输给专门的中文模型。这大概率继承自 Qwen3-VL 的多语言预训练,而 NVIDIA 的英文后训练并没有摧毁中文能力。
-
代码生成:扎实。标准算法实现,变量命名和文档字符串都很规范,没有出现幻觉。
多模态的限制
我尝试了 Ollama 的 --image 参数和 llama.cpp 的 server 模式来测试多模态推理。在当前 GGUF 格式下,这两条路都走不通。
原因是架构层面的:Nemotron Nano Omni 的多模态管线需要三条独立的编码器路径(CRADIO 视觉 + Parakeet 音频 + LLM 主干)协同工作。GGUF 格式可以存储所有三个组件的权重——下载的 mmproj 文件也确实包含了视觉投影器权重——但 Ollama 目前的多模态支持仅限于 LLaVA 风格的单投影器架构。要完整发挥 Nemotron Nano Omni 的能力,要么用 vLLM 0.20.0(需要 H100/L40S 级别硬件),要么等待 llama.cpp 正在开发中的 Parakeet 集成成熟。
这就是前沿模型部署的现实:文本模式在消费级硬件上今天就能跑得很好。完整的多模态——要么耐心等待,要么上云 GPU。
这意味着什么
Nemotron Nano Omni 从多个维度代表了真正的前进:
开源前沿架构:Mamba2-Transformer 混合设计——状态空间模型层和注意力层交替堆叠——在学术界已经热了两年。这是第一个大规模开源发布并证明其在真实规模下可行的模型。31B/3B 的 MoE 比例意味着消费级 GPU 可以以「小模型」的计算成本获得「大模型」的能力。
蒸馏策略值得研究:NVIDIA 从 Qwen3-VL 出发、替换自研编码器、在内部数据上重训的做法,将成为其他公司的范式。比从零训练更快,产出的模型具备原版根本没有的独特能力(在本例中是原生音频理解)。
消费级硬件离前沿比官方规格更近:当一个 30B 多模态模型在 24GB 的显卡上跑到 200 t/s 时,「企业级」和「本地 AI」之间的差距正在以比官方最低配置所暗示的更快的速度缩小。NVIDIA 说的"H100 最低配置"对完整精度的完整多模态管线是准确的——但光是文本主干,在消费级量化下就已经足够实用了。
多模态的工程挑战仍在:多模态 GGUF 模型的工具链生态还很碎片化。Ollama、llama.cpp 和 LM Studio 都在向更好的多模态支持靠拢,但像 CRADIO + Parakeet 这样的自定义编码器管线仍然是个挑战。文本模型「下载即用」和多模态模型「下载即调试」之间的差距依然真实存在。
要不要试试?
如果你有一张 24GB 显卡,想体验一个推理能力强、中文也不错的 30B MoE 模型:值得。IQ3_S 量化在 200 t/s 下跑得非常流畅。导入 Ollama 试一下,你会得到一个每 token 仅 3B 算力却能打出远超其重量级的推理模型。
如果你今天就需要完整的视频+音频+图像全模态能力:准备好申请一台 H100 或者 L40S 云实例。或者等 llama.cpp 的 Parakeet 集成落地——PR 开着,社区很活跃。
这个模型本身是一个迷人的证明点:NVIDIA 以开源权重发布前沿研究,建立在社区基础上(Qwen),用自研创新增强(Mamba2、CRADIO、Parakeet)。这是一个「开源」和「闭源」的边界正以建设性方式模糊化的模型生态。