🧩NVIDIA Nemotron-3-Super:如何运行指南

在你的设备上本地运行并微调 NVIDIA Nemotron-3-Super-120B-A12B!

英伟达发布 Nemotron-3-Super-120B-A12B,一款具有12B活跃参数的120B开放混合推理MoE模型,此前已发布过 Nemotron-3-Nano,它是其30B的对应版本。Nemotron-3-Super 旨在为多代理AI提供高效性和高精度。拥有 1M 令牌 上下文窗口,它在 AIME 2025、Terminal Bench 和 SWE-Bench Verified 基准中在同类规模中领先,同时实现了最高吞吐量。

Nemotron-3-Super 可在具有 64GB 的 RAM、显存或统一内存的设备上运行,现在可以在本地进行微调。感谢 NVIDIA 在第一天就为 Unsloth 提供支持。

Nemotron 3 SuperNemotron 3 Nano

GGUF: Nemotron-3-Super-120B-A12B-GGUFarrow-up-rightNVFP4arrow-up-rightFP8arrow-up-rightBF16arrow-up-right

⚙️ 使用指南

NVIDIA 推荐以下推理设置:

一般聊天/指令(默认):

  • temperature = 1.0

  • top_p = 1.0

调用工具的用例:

  • temperature = 0.6

  • top_p = 0.95

对于大多数本地使用,请设置:

  • max_new_tokens = 32,768262,144 针对最多 1M 令牌的标准提示

  • 根据您的 RAM/显存情况增加以进行深度推理或长文本生成。

当我们使用下面内容时,可以找到聊天模板格式:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 聊天模板格式:

circle-info

Nemotron 3 使用 <think> 其令牌 ID 为 12 且 </think> 其令牌 ID 为 13 用于推理。使用 --special 可以查看 llama.cpp 的这些令牌。您可能还需要 --verbose-prompt 以查看 <think> 因为它被预置了。

🖥️ 运行 Nemotron-3-Super-120B-A12B

根据您的用例,您需要使用不同的设置。由于模型架构(例如 gpt-oss)具有不能被 128 整除的维度,某些 GGUF 的大小最终会类似,因此部分无法量化到更低位。访问 GGUF: 这里arrow-up-right.

模型的 4-bit 版本需要约 ~64GB - 72GB RAM。8-bit 需要 128GB。

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4-bit 以适配大多数设备):

1

获取最新的 llama.cppGitHub 这里arrow-up-right。您也可以按下面的构建说明操作。若没有 GPU 或仅想使用 CPU 推理,请将 -DGGML_CUDA=ON-DGGML_CUDA=OFF 更改为

2

您可以直接从 Hugging Face 拉取。您可以根据 RAM/显存情况将上下文增加到 1M。

参照此用于 通用指令 的用例:

参照此用于 调用工具 的用例:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。您可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化以平衡大小和精度, UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

另外,根据需要调整 上下文窗口 。确保您的硬件可以处理超过 256K 的上下文窗口。将其设置为 1M 可能会触发 CUDA OOM 并导致崩溃,这就是默认值为 262,144 的原因。

🦥 对 Nemotron 3 的微调和强化学习(RL)

Unsloth 现在支持对所有 Nemotron 模型进行微调,包括 Nemotron 3 Super 和 Nano。有关 Nano 的笔记本示例,请参阅我们的 Nemotron 3 Nano 微调指南.

Nemotron 3 Super

  • 路由层微调默认已禁用以保证稳定性。

  • Nemotron-3-Super-120B - bf16 LoRA 在 256GB 显存上可用。如果您使用多 GPU,请添加 device_map = "balanced" 或遵循我们的 多 GPU 指南.

🦙Llama-server 提供服务与部署

要将 Nemotron 3 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下方式部署模型:

运行上述命令后,您将获得:

然后在新的终端中,在执行 pip install openai之后,执行:

输出将为:

基准测试

与类似规模的模型相比,Nemotron 3 Super 在性能上具有竞争力,同时提供最高的吞吐量。

最后更新于

这有帮助吗?