🧩NVIDIA Nemotron 3 Nano - 如何运行指南

在您的设备上本地运行并微调 NVIDIA Nemotron 3 Nano!

NVIDIA 发布了 Nemotron 3 Nano,一款 300 亿参数的混合推理 MoE 模型,具有约 36 亿的活跃参数——专为快速、准确的编程、数学和具代理性的任务构建。它具有一个 100 万上下文窗口 并且在其同等规模中在 SWE-Bench、GPQA Diamond、推理、聊天和吞吐量方面表现最佳。

Nemotron 3 Nano 可在 24GB 内存/显存(或统一内存)上运行,你现在可以 微调 在本地运行。感谢 NVIDIA 为 Unsloth 提供零日支持。

运行教程微调 Nano 3

NVIDIA Nemotron 3 Nano GGUF 以运行: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right 我们还上传了 BF16arrow-up-rightFP8arrow-up-right 变体。

⚙️ 使用指南

NVIDIA 建议用于推理的设置:

通用聊天/指令(默认):

  • temperature = 1.0

  • top_p = 1.0

工具调用用例:

  • temperature = 0.6

  • top_p = 0.95

对于大多数本地使用,设置:

  • max_new_tokens = 32,768 改为 262,144 用于最大 100 万标记的标准提示

  • 根据你的内存/显存情况增加以进行深度推理或长文本生成。

聊天模板格式如下使用时可以找到:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 聊天模板格式:

circle-info

Nemotron 3 使用 <think> 其标记 ID 为 12,和 </think> 其标记 ID 为 13 用于推理。使用 --special 可以查看 llama.cpp 的标记。你可能还需要 --verbose-prompt 以查看 <think> 因为它被预置在前面。

🖥️ 运行 Nemotron-3-Nano-30B-A3B

根据你的使用场景,你需要使用不同的设置。一些 GGUF 的最终大小相似,因为模型架构(例如 gpt-oss)的维度不能被 128 整除,因此部分无法量化到更低位数。

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub(此处)arrow-up-right。您也可以按照下面的构建说明。若没有 GPU 或仅想用 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF

2

你可以直接从 Hugging Face 拉取。你可以根据内存/显存情况将上下文增加到 100 万。

按以下方式用于 通用指令 用例:

按以下方式用于 工具调用 用例:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 UD-Q4_K_XL 或其它量化版本。

4

然后以对话模式运行模型:

此外,根据需要调整 上下文窗口 以满足要求。确保你的硬件能处理超过 256K 的上下文窗口。将其设置为 100 万可能会触发 CUDA OOM 并导致崩溃,这就是默认值为 262,144 的原因。

5

Nemotron 3 使用 <think> 其标记 ID 为 12,和 </think> 其标记 ID 为 13 用于推理。使用 --special 可以查看 llama.cpp 的标记。你可能还需要 --verbose-prompt 以查看 <think> 因为它被预置在前面。

circle-check

🦥 微调 Nemotron 3 Nano 与强化学习

Unsloth 现在支持所有 Nemotron 模型的微调,包括 Nemotron 3 Nano。30B 模型无法放入免费 Colab GPU;不过我们仍为你制作了一个 80GB A100 的 Colab 笔记本用于微调。Nemotron 3 Nano 的 16 位 LoRA 微调大约会使用 60GB 显存:

关于微调 MoE —— 可能不太适合微调路由器层,因此我们默认将其禁用。如果你想保留其推理能力(可选),可以使用直接回答与链式思考示例的混合。在你的数据集中至少使用 75% 推理25% 非推理 来使模型保留其推理能力。

强化学习 + NeMo Gym

我们与开源的 NVIDIA NeMo Gymarrow-up-right 团队合作以推动 RL 环境的民主化。我们的合作使得许多感兴趣领域(包括数学、编程、工具使用等)能够进行单回合 rollout 强化学习训练,使用来自 NeMo Gym 的训练环境和数据集:

circle-check

🎉Llama-server 服务与部署

要在生产中部署 Nemotron 3,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下方式部署模型:

运行上述命令后,您将得到:

然后在新终端中,执行 pip install openai,然后执行:

这将打印出

基准测试

Nemotron-3-Nano-30B-A3B 在所有基准测试中表现最佳,包括吞吐量。

最后更新于

这有帮助吗?