🧩NVIDIA Nemotron 3 Nano - 如何运行指南

在您的设备上本地运行并微调 NVIDIA Nemotron 3 Nano!

NVIDIA 发布了 Nemotron 3 Nano,这是一个 300 亿参数的混合推理 MoE 模型,具有约 36 亿的活跃参数——用于快速、精确的编码、数学和智能体任务。它具有一个 100 万上下文窗口 并且在其同等规模中,在 SWE-Bench、GPQA Diamond、推理、聊天和吞吐量方面表现最佳。

Nemotron 3 Nano 运行在 24GB 内存/显存(或统一内存),现在你可以 在本地微调 它。感谢 NVIDIA 为 Unsloth 提供首日支持。

运行教程微调 Nano 3

NVIDIA Nemotron 3 Nano GGUF 运行: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right 我们还上传了 BF16arrow-up-rightFP8arrow-up-right 变体。

⚙️ 使用指南

NVIDIA 建议用于推理的这些设置:

通用聊天/指令(默认):

  • temperature = 1.0

  • top_p = 1.0

工具调用用例:

  • temperature = 0.6

  • top_p = 0.95

对于大多数本地使用,设置:

  • max_new_tokens = 32,768262,144 用于最大 100 万标记的标准提示

  • 根据你的内存/显存情况增加以用于深度推理或长文本生成。

当我们使用下面的内容时,会看到聊天模板格式:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 聊天模板格式:

circle-info

Nemotron 3 使用 <think> 其标记 ID 为 12 并且 </think> 其标记 ID 为 13 用于推理。使用 --special 可以查看 llama.cpp 的标记。你可能还需要 --verbose-prompt 来查看 <think> 因为它被前置了。

🖥️ 运行 Nemotron-3-Nano-30B-A3B

根据你的使用场景,需要使用不同的设置。一些 GGUF 最终在大小上相似,因为模型架构(比如 gpt-oss)的维度不能被 128 整除,因此某些部分无法量化到更低比特。

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4-bit 以适配大多数设备):

1

获取最新的 llama.cppGitHub 这里arrow-up-right。你也可以按下面的构建说明操作。若你没有 GPU 或只想在 CPU 上推理,请将 -DGGML_CUDA=ON-DGGML_CUDA=OFF 更改为

2

你可以直接从 Hugging Face 拉取。你可以根据你的内存/显存将上下文增加到 100 万。

按此操作以用于 通用指令 用例:

按此操作以用于 工具调用 用例:

3

通过以下方式下载模型(在安装之后 pip install huggingface_hub hf_transfer )。你可以选择 UD-Q4_K_XL 或其他量化版本。

4

然后在对话模式下运行模型:

另外,根据需要调整 上下文窗口 以满足要求。确保你的硬件可以处理超过 256K 的上下文窗口。将其设置为 100 万可能会触发 CUDA OOM 并崩溃,这就是默认值为 262,144 的原因。

5

Nemotron 3 使用 <think> 其标记 ID 为 12 并且 </think> 其标记 ID 为 13 用于推理。使用 --special 可以查看 llama.cpp 的标记。你可能还需要 --verbose-prompt 来查看 <think> 因为它被前置了。

circle-check

🦥 微调 Nemotron 3 Nano 与 强化学习

Unsloth 现在支持对所有 Nemotron 模型的微调,包括 Nemotron 3 Nano。该 300 亿模型无法放入免费的 Colab GPU;然而,我们仍为你提供了一个 80GB A100 的 Colab 笔记本以进行微调。Nemotron 3 Nano 的 16-bit LoRA 微调将使用约 60GB 显存:

关于微调 MoE——可能不建议微调路由器层,因此我们默认禁用了它。如果你想保留其推理能力(可选),可以使用直接回答和思路链示例的混合。在你的数据集中至少使用 75% 推理25% 非推理 来使模型保留其推理能力。

强化学习 + NeMo Gym

我们与开源的 NVIDIA NeMo Gymarrow-up-right 团队合作,以实现 RL 环境的民主化。我们的合作使许多兴趣领域的单回合展开 RL 训练成为可能,包括数学、编码、工具使用等,使用来自 NeMo Gym 的训练环境和数据集:

circle-check

🎉Llama-server 服务与部署

要在生产中部署 Nemotron 3,我们使用 llama-server 在新的终端中,例如通过 tmux,通过以下命令部署模型:

当你运行上述命令时,你会得到:

然后在新的终端中,在执行 pip install openai之后,执行:

这将打印出

基准测试

Nemotron-3-Nano-30B-A3B 在所有基准测试中表现最好,包括吞吐量。

最后更新于

这有帮助吗?