🧩NVIDIA Nemotron 3 Nano - 如何运行指南

在您的设备上本地运行并微调 NVIDIA Nemotron 3 Nano！

NVIDIA 发布了 Nemotron 3 Nano，这是一个 300 亿参数的混合推理 MoE 模型，具有约 36 亿的活跃参数——用于快速、精确的编码、数学和智能体任务。它具有一个 100 万上下文窗口 并且在其同等规模中，在 SWE-Bench、GPQA Diamond、推理、聊天和吞吐量方面表现最佳。

Nemotron 3 Nano 运行在 24GB 内存/显存（或统一内存），现在你可以 在本地微调 它。感谢 NVIDIA 为 Unsloth 提供首日支持。

运行教程微调 Nano 3

NVIDIA Nemotron 3 Nano GGUF 运行： unsloth/Nemotron-3-Nano-30B-A3B-GGUF 我们还上传了 BF16 和 FP8 变体。

⚙️ 使用指南

NVIDIA 建议用于推理的这些设置：

通用聊天/指令（默认）：

temperature = 1.0
top_p = 1.0

工具调用用例：

temperature = 0.6
top_p = 0.95

对于大多数本地使用，设置：

max_new_tokens = 32,768 为 262,144 用于最大 100 万标记的标准提示
根据你的内存/显存情况增加以用于深度推理或长文本生成。

当我们使用下面的内容时，会看到聊天模板格式：

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 聊天模板格式：

Nemotron 3 使用 <think> 其标记 ID 为 12 并且 </think> 其标记 ID 为 13 用于推理。使用 --special 可以查看 llama.cpp 的标记。你可能还需要 --verbose-prompt 来查看 <think> 因为它被前置了。

<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n

🖥️ 运行 Nemotron-3-Nano-30B-A3B

根据你的使用场景，需要使用不同的设置。一些 GGUF 最终在大小上相似，因为模型架构（比如 gpt-oss）的维度不能被 128 整除，因此某些部分无法量化到更低比特。

Llama.cpp 教程（GGUF）：

在 llama.cpp 中运行的说明（注意我们将使用 4-bit 以适配大多数设备）：

获取最新的 llama.cpp 在 GitHub 这里。你也可以按下面的构建说明操作。若你没有 GPU 或只想在 CPU 上推理，请将 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 更改为

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

你可以直接从 Hugging Face 拉取。你可以根据你的内存/显存将上下文增加到 100 万。

按此操作以用于 通用指令 用例：

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 1.0 --top-p 1.0 --fit on

按此操作以用于 工具调用 用例：

./llama.cpp/llama-cli \
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 0.6 --top-p 0.95 --fit on

通过以下方式下载模型（在安装之后 pip install huggingface_hub hf_transfer ）。你可以选择 UD-Q4_K_XL 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

然后在对话模式下运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --fit on \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95 \
    --jinja

另外，根据需要调整 上下文窗口 以满足要求。确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 100 万可能会触发 CUDA OOM 并崩溃，这就是默认值为 262,144 的原因。

因为模型是用 NoPE训练的，你只需要更改 max_position_embeddings。该模型不使用显式的位置嵌入，所以 YaRN 并不需要.

🦥 微调 Nemotron 3 Nano 与强化学习

Unsloth 现在支持对所有 Nemotron 模型的微调，包括 Nemotron 3 Nano。该 300 亿模型无法放入免费的 Colab GPU；然而，我们仍为你提供了一个 80GB A100 的 Colab 笔记本以进行微调。Nemotron 3 Nano 的 16-bit LoRA 微调将使用约 60GB 显存:

Nemotron-3-Nano-30B-A3B SFT LoRA 笔记本

Google Colabcolab.research.google.com

关于微调 MoE——可能不建议微调路由器层，因此我们默认禁用了它。如果你想保留其推理能力（可选），可以使用直接回答和思路链示例的混合。在你的数据集中至少使用 75% 推理和 25% 非推理来使模型保留其推理能力。

✨强化学习 + NeMo Gym

我们与开源的 NVIDIA NeMo Gym 团队合作，以实现 RL 环境的民主化。我们的合作使许多兴趣领域的单回合展开 RL 训练成为可能，包括数学、编码、工具使用等，使用来自 NeMo Gym 的训练环境和数据集：

NeMo Gym 数独强化学习笔记本

Google Colabcolab.research.google.com

NeMo Gym 多环境强化学习笔记本

Google Colabcolab.research.google.com

另请查看我们最近发布在 NVIDIA 官方开发者博客上的合作指南：

如何在 NVIDIA GPU 上使用 Unsloth 微调 LLM

How to Fine-Tune an LLM on NVIDIA GPUs With UnslothNVIDIA Blog

🎉Llama-server 服务与部署

要在生产中部署 Nemotron 3，我们使用 llama-server 在新的终端中，例如通过 tmux，通过以下命令部署模型：

./llama.cpp/llama-server \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --fit on \
    --prio 3 \
    --min_p 0.01 \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

当你运行上述命令时，你会得到：

然后在新的终端中，在执行 pip install openai之后，执行：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

这将打印出

用户提出一个简单问题：“2+2 等于多少？”答案是 4。提供答案。

2 + 2 = 4.

基准测试

Nemotron-3-Nano-30B-A3B 在所有基准测试中表现最好，包括吞吐量。

上一页GLM-4.7 下一页Qwen-Image-2512

最后更新于25天前

这有帮助吗？

hashtag⚙️ 使用指南

hashtagNemotron 3 聊天模板格式：

hashtag🖥️ 运行 Nemotron-3-Nano-30B-A3B

hashtagLlama.cpp 教程（GGUF）：

hashtag🦥 微调 Nemotron 3 Nano 与 强化学习

hashtag✨强化学习 + NeMo Gym

hashtag如何在 NVIDIA GPU 上使用 Unsloth 微调 LLMarrow-up-right

hashtag🎉Llama-server 服务与部署

hashtag基准测试

⚙️ 使用指南

Nemotron 3 聊天模板格式：

🖥️ 运行 Nemotron-3-Nano-30B-A3B

Llama.cpp 教程（GGUF）：

🦥 微调 Nemotron 3 Nano 与强化学习

✨强化学习 + NeMo Gym

如何在 NVIDIA GPU 上使用 Unsloth 微调 LLM

🎉Llama-server 服务与部署

基准测试