For the complete documentation index, see llms.txt. This page is also available as Markdown.

🧩NVIDIA Nemotron 3 Nano Omni - 如何在本地运行

在你的设备上本地运行并微调 Nemotron-3-Nano-Omni-30B-A3B!

NVIDIA Nemotron-3-Nano-Omni-30B-A3B 是一款开放的 30B 参数、3B 激活的混合推理 MoE 模型,专为多模态智能体工作负载打造,包括 音频, 视频、文本、图像和文档作为输入,并输出文本。该模型可在 25GB RAM 上运行 4 位量化版本,以及 36GB 上运行 8 位版本。

凭借 256K 上下文,Nemotron 3 Nano Omni 是 同尺寸中最强的全模态 模型,也是最高效率的开放多模态模型。我们与 NVIDIA 合作,实现了第一时间支持! GGUF: Nemotron-3-Nano-Omni-30B-A3B-Reasoning

⚙️ 使用指南

NVIDIA 建议以下推理设置:

思考模式:

  • temperature = 0.6

  • top_p = 0.95

指令模式:

  • temperature = 0.2

运行 Nemotron-3-Nano-Omni

根据你的使用场景,你需要使用 不同的设置。某些 GGUF 文件最终大小相近,是因为模型架构(如 gpt-oss)的维度不能被 128 整除,因此部分参数无法量化到更低比特。 GGUF: Nemotron-3-Nano-Omni-30B-A3B-Reasoning

该模型的 4 位版本大约需要 ~25GB RAM。8 位版本需要 36GB。对于本指南,我们将使用 UD-Q4-K-XL ,它在体积和精度之间取得了良好平衡。

在 Unsloth Studio 中运行在 llama.cpp 中运行

🦥 Unsloth Studio 指南

在本教程中,我们将使用 Unsloth Studio,这是我们用于运行和训练 LLM 的新网页界面。借助 Unsloth Studio,你可以在本地运行模型并输入 音频、图像和文本,在 Mac、Windows和 Linux 上进行,并且:

1

安装 Unsloth

MacOS、Linux、WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex
2

设置 Unsloth Studio(仅需一次)

设置会自动安装 Node.js(通过 nvm)、构建前端、安装所有 Python 依赖,并构建带 CUDA 支持的 llama.cpp。

WSL 用户: 系统会提示你输入 sudo 密码以安装构建依赖(cmake, git, libcurl4-openssl-dev).

3

启动 Unsloth

MacOS、Linux、WSL:

source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888

Windows PowerShell:

& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888

然后打开 http://127.0.0.1:8888 在你的浏览器中。

4

搜索并下载 NVIDIA-Nemotron-3-Nano-30B-A3B-Omni

首次启动时,你需要创建一个密码来保护你的账户,并在之后重新登录。然后前往 Studio Chat 选项卡,在搜索栏中搜索 Nemotron-3-Nano-Omni,并下载你想要的模型和量化版本。

5

运行 Nemotron-3-Nano-30B-A3B-Omni

在使用 Unsloth Studio 时,推理参数应会自动设置,不过你仍然可以手动修改。你还可以编辑上下文长度、聊天模板和其他设置。

更多信息请查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 教程:

在 llama.cpp 中运行的说明(注意我们将使用 4 位量化以适配大多数设备):

1

获取最新的 llama.cpp ,请见 GitHub 这里。你也可以按照下面的构建说明进行。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后像往常一样继续——Metal 支持默认开启。

2

我们先来获取一张图片! 你也可以上传图片。我们将使用 https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png,这只是我们的小型标志,展示了如何使用 Unsloth 制作微调模型:

再获取第二张图片,地址为 https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

3

通过下面的代码下载模型(在安装 pip install huggingface_hub之后)。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡体积和精度。如果下载卡住,请查看: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

5

你随后会看到下面的内容:

6

然后使用 /image 来加载两张图片,并提问“这是什么图片”:

7

对于树懒图片:

Llama-server 提供与部署

要在本地部署 Nemotron 3 Nano Omni,请使用 llama-server。例如,在一个新终端中,通过 tmux部署模型:

如果你是手动下载的模型,请使用:

然后在一个新的终端中,先通过以下命令安装 OpenAI 客户端: pip install openai:

这将显示类似下面的内容:

通过与 OpenAI 兼容的服务器输入图像

我们来使用 picture.png ,它是上面那张树懒图片,像在 NVIDIA Nemotron 3 Omni

这将显示类似下面的内容:

🦥 Nemotron 3 Nano Omni 微调

Unsloth 支持整个 Nemotron 模型家族。Nemotron 3 Nano Omni 适用于多模态智能体数据集。你可以通过 Unsloth 对音频、视觉或文本进行训练。 视频输入 微调目前不受支持。

对于纯文本和笔记本,你可以从现有的 Nemotron 3 Nano 微调流程开始。对于多模态适配器,请确保你的数据集包含智能体实际需要的模态:

  • 计算机使用: 截图、UI 状态、光标/上下文、期望的下一步操作

  • 文档智能: PDF、截图、图表、表格、结构化抽取目标

  • 音频理解: 音频片段、采样帧、摘要、时间戳、事件以及后续问题

  • 智能体循环: 观察 → 推理 → 行动 → 验证 示例

对于 Omni,不要盲目复用仅文本的显存数值。多模态编码器、投影层权重、图像 token、音频块和长上下文都会增加内存占用。请先从较短的上下文和较小的批大小开始,然后再逐步扩大。

基准测试

Nemotron 3 Nano Omni 在其尺寸下是最强的全模态模型。它也是效率最高的开放多模态模型,精度领先。该模型在每一项基准测试上都优于 Qwen3-Omni-30B-A3B。

最后更新于

这有帮助吗?