🧩NVIDIA Nemotron 3 Nano - 如何运行指南

在你的设备上本地运行并微调 NVIDIA Nemotron 3 Nano！

NVIDIA 发布了 Nemotron-3-Nano-4B，一个 4B 的开放混合 MoE 模型，遵循 Nemotron-3-Super-120B-A12B 和 Nemotron-3-Nano-30B-A3B。Nemotron 系列旨在用于快速、准确的代码、数学和具代理性的工作负载。它们具有 1M 令牌上下文 窗口，并且在推理、对话和吞吐量基准测试中具有竞争力。

Nemotron-3-Nano-4B 在 5GB 的 RAM、显存或统一内存上运行。Nemotron-3-Nano-30A3B 在 24GB RAM 上运行。现在可以通过 Unsloth在本地对 Nemotron 3 进行微调。感谢 NVIDIA 在第一天就为 Unsloth 提供支持。

Nemotron-3-Nano-4B Nemotron-3-Nano-30B-A3B 微调 Nemotron 3

Nemotron-3-Nano-4B-GGUF

Nemotron-3-Nano-30B-A3B-GGUF

⚙️ 使用指南

NVIDIA 建议以下推理设置：

通用对话/指令（默认）：

temperature = 1.0
top_p = 1.0

工具调用用例：

temperature = 0.6
top_p = 0.95

对于大多数本地使用，设置：

max_new_tokens = 32,768 为 262,144 用于最大 1M 令牌的标准提示
如有更多 RAM/显存，可为深度推理或长文本生成增加该值。

当我们使用下面内容时，会看到聊天模板格式：

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

因为模型用 NoPE 训练，所以你只需更改 max_position_embeddings。模型不使用显式位置嵌入，所以不需要 YaRN。

Nemotron 3 聊天模板格式：

Nemotron 3 使用 <think> 其令牌 ID 为 12，并使用 </think> 其令牌 ID 为 13 进行推理。使用 --special 来查看 llama.cpp 的令牌。你可能还需要 --verbose-prompt 来查看 <think> 因为它被置于前面。

<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n

🖥️ 运行 Nemotron-3-Nano-4B

根据你的使用场景需要使用不同设置。有些 GGUF 的最终大小相似，因为模型架构（例如 gpt-oss）具有不能被 128 整除的维度，因此某些部分不能量化为更低位数。

模型的 4 位版本需要约 ~3GB RAM。8 位需要 5GB。

Llama.cpp 教程（GGUF）：

在 llama.cpp 中运行的说明（我们将使用 8 位以接近全精度）：

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。若没有 GPU 或只想使用 CPU 推理，请将 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 更改为

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

你可以直接从 Hugging Face 拉取。你可以根据 RAM/显存将上下文增加到 1M。

按此用于 通用指令 用例：

./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \
    --ctx-size 16384 \
    --temp 1.0 --top-p 1.0

按此用于 工具调用 用例：

./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95

通过以下命令下载模型（在安装 pip install huggingface_hub hf_transfer ）之后。你可以选择 Q8_0 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    allow_patterns = ["*Q8_0*"],
)

然后以对话模式运行模型：

./llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \
    --ctx-size 16384 \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95

另外，根据需要调整 上下文窗口 确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 1M 可能会触发 CUDA OOM 并崩溃，这就是默认值为 262,144 的原因。

🖥️ 运行 Nemotron-3-Nano-30B-A3B

模型的 4 位版本需要约 ~24GB RAM。8 位需要 36GB。

Llama.cpp 教程（GGUF）：

在 llama.cpp 中运行的说明（注意我们将使用 4 位以适配大多数设备）：

获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。若没有 GPU 或只想使用 CPU 推理，请将 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 更改为 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后像往常一样继续 - Metal 支持默认启用。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

你可以直接从 Hugging Face 拉取。你可以根据 RAM/显存将上下文增加到 1M。

按此用于 通用指令 用例：

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 1.0 --top-p 1.0

按此用于 工具调用 用例：

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95

通过以下命令下载模型（在安装 pip install huggingface_hub hf_transfer ）之后。你可以选择 UD-Q4_K_XL 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

然后以对话模式运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95

🦥 微调 Nemotron 3 与强化学习

Unsloth 现在支持对所有 Nemotron 模型进行微调，包括 Nemotron 3 Super 和 Nano。

4B 模型可在免费的 Colab GPU 上运行，但 30B 模型不适合。我们仍然为你提供了一个 80GB A100 的 Colab 笔记本供微调使用。Nemotron 3 Nano 的 16 位 LoRA 微调将使用大约 60GB 显存:

Nemotron-3-Nano-30B-A3B SFT LoRA 笔记本

Google Colabcolab.research.google.com

关于微调 MoE —— 可能不适合微调路由器层，所以我们默认禁用了它。如果你想保留其推理能力（可选），可以使用直接回答与链式思维示例的混合。在你的数据集中至少使用 75% 推理和 25% 非推理来使模型保留其推理能力。

✨强化学习 + NeMo Gym

我们与开源的 NVIDIA NeMo Gym 团队合作以推动 RL 环境的民主化。我们的合作使得许多感兴趣领域（包括数学、编程、工具使用等）能够进行单回合 rollout RL 训练，使用来自 NeMo Gym 的训练环境和数据集：

NeMo Gym 数独强化学习笔记本

Google Colabcolab.research.google.com

NeMo Gym 多环境强化学习笔记本

Google Colabcolab.research.google.com

另请查看我们在 NVIDIA 官方开发者博客上发布的最新合作指南：

如何使用 Unsloth 在 NVIDIA GPU 上微调 LLM

How to Fine-Tune an LLM on NVIDIA GPUs With UnslothNVIDIA Blog

🦙Llama-server 服务与部署

为了将 Nemotron 3 投入生产部署，我们使用 llama-server 在一个新的终端（例如通过 tmux）中，通过以下命令部署模型：

./llama.cpp/llama-server \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --prio 3 \
    --min_p 0.01 \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001

当你运行上述命令时，你将获得：

然后在新的终端中，在执行 pip install openai之后，执行：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

这将打印出

用户提出一个简单问题：“2+2 等于多少？”答案是 4。提供答案。

2 + 2 = 4.

基准测试

Nemotron-3-Nano-4B 在其同等规模模型中表现最佳，包括吞吐量方面。

Nemotron-3-Nano-30B-A3B 在所有基准测试中表现最佳，包括吞吐量。

上一页Fine-tune Qwen3.5 下一页NVIDIA Nemotron 3 Super

最后更新于7小时前

这有帮助吗？

hashtag⚙️ 使用指南

hashtagNemotron 3 聊天模板格式：

hashtag🖥️ 运行 Nemotron-3-Nano-4B

hashtagLlama.cpp 教程（GGUF）：

hashtag🖥️ 运行 Nemotron-3-Nano-30B-A3B

hashtagLlama.cpp 教程（GGUF）：

hashtag🦥 微调 Nemotron 3 与强化学习

hashtag✨强化学习 + NeMo Gym

hashtag如何使用 Unsloth 在 NVIDIA GPU 上微调 LLMarrow-up-right

hashtag🦙Llama-server 服务与部署

hashtag基准测试

⚙️ 使用指南

Nemotron 3 聊天模板格式：

🖥️ 运行 Nemotron-3-Nano-4B

Llama.cpp 教程（GGUF）：

🖥️ 运行 Nemotron-3-Nano-30B-A3B

Llama.cpp 教程（GGUF）：

🦥 微调 Nemotron 3 与强化学习

✨强化学习 + NeMo Gym

如何使用 Unsloth 在 NVIDIA GPU 上微调 LLM

🦙Llama-server 服务与部署

基准测试