🧩NVIDIA Nemotron-3-Super:如何运行指南

在您的设备上本地运行并微调 NVIDIA Nemotron-3-Super-120B-A12B!

NVIDIA 发布了 Nemotron-3-Super-120B-A12B,这是一款具有 12B 活跃参数的 120B 开放混合推理 MoE 模型,继先前发布的 Nemotron-3-Nano,它的 30B 对应版本。Nemotron-3-Super 针对多代理 AI 设计,兼顾高效与高准确性。具有 1M 令牌 的上下文窗口,在 AIME 2025、Terminal Bench 和 SWE-Bench Verified 基准中领先同类规模,同时实现了最高吞吐量。

Nemotron-3-Super 可在具有 64GB RAM、显存或统一内存的设备上运行,并且现在可以在本地进行微调。感谢 NVIDIA 对 Unsloth 的零日支持。

Nemotron 3 SuperNemotron 3 Nano

GGUF: NVIDIA-Nemotron-3-Super-120B-A12B-GGUFarrow-up-right

⚙️ 使用指南

NVIDIA 推荐以下推理设置:

通用对话/指令(默认):

  • temperature = 1.0

  • top_p = 1.0

工具调用用例:

  • temperature = 0.6

  • top_p = 0.95

对于大多数本地使用,请设置:

  • max_new_tokens = 32,768262,144 用于最大 1M 令牌的标准提示

  • 在 RAM/显存允许的情况下,为深度推理或长格式生成增加该值。

当我们使用以下内容时,可以找到聊天模板格式:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3 聊天模板格式:

circle-info

Nemotron 3 使用 <think> ,其令牌 ID 为 12,和 </think> ,其令牌 ID 为 13 用于推理。使用 --special 查看 llama.cpp 的令牌。您可能还需要 --verbose-prompt 来查看 <think> 因为它被添加在前面。

🖥️ 运行 Nemotron-3-Super-120B-A12B

根据您的用例需要使用不同设置。某些 GGUF 在大小上相似,因为模型架构(例如 gpt-oss) 的维度不是 128 的倍数,因此某些部分无法量化到更低位。访问 GGUF 此处arrow-up-right.

模型的 4 位版本需要约 ~64GB - 72GB RAM。8 位需要 128GB。

Llama.cpp 教程(GGUF):

在 llama.cpp 中运行的说明(注意我们将使用 4 位以适配大多数设备):

1

获取最新的 llama.cppGitHub 这里arrow-up-right。您也可以按照下面的构建说明。若无 GPU 或仅想进行 CPU 推理,请将 -DGGML_CUDA=ON-DGGML_CUDA=OFF 更改为

circle-exclamation
2

您可以直接从 Hugging Face 拉取。您可以根据 RAM/显存将上下文扩展到 1M。

关于 通用指令 用例,请遵循:

关于 工具调用 用例,请遵循:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。您可以选择 Q4_K_M 或其他量化版本,如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性, UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

此外,根据需要调整 上下文窗口 以确保您的硬件能处理超过 256K 的上下文窗口。将其设置为 1M 可能会触发 CUDA OOM 并导致崩溃,这就是默认值为 262,144 的原因。

🦥 对 Nemotron 3 的微调与强化学习(RL)

Unsloth 现在支持对所有 Nemotron 模型进行微调,包括 Nemotron 3 Super 和 Nano。有关 Nano 的笔记本示例,请参阅我们的 Nemotron 3 Nano 微调指南.

Nemotron 3 Super

  • 为稳定性起见,路由层微调默认被禁用。

  • Nemotron-3-Super-120B - bf16 LoRA 在 256GB 显存上可行。如果您使用多 GPU,请添加 device_map = "balanced" 或遵循我们的 多 GPU 指南.

🦙Llama-server 服务与部署

要将 Nemotron 3 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下命令部署模型:

运行上述命令时,您将获得:

然后在新终端,在执行了 pip install openai之后,执行:

这将打印:

基准测试

与相似规模的模型相比,Nemotron 3 Super 在性能上具有竞争力,同时提供最高的吞吐量。

最后更新于

这有帮助吗?