🧩NVIDIA Nemotron-3-Super: 実行ガイド

NVIDIA Nemotron-3-Super-120B-A12B をローカルデバイスで実行・ファインチューニングしましょう!

NVIDIAが発表 Nemotron-3-Super-120B-A12B、12Bのアクティブパラメータを持つ120Bのオープンハイブリッド推論MoEモデルで、先に発表された Nemotron-3-Nano、その30Bの対となるモデルに続くものです。Nemotron-3-SuperはマルチエージェントAIに対して高効率かつ高精度を目指して設計されています。さらに 1Mトークン のコンテキストウィンドウを備え、AIME 2025、Terminal Bench、SWE-Bench Verifiedベンチマークの同クラスで先頭に立ち、同時に最高のスループットを達成しています。

Nemotron-3-Superは 64GB のRAM、VRAM、または統一メモリを搭載したデバイスで動作し、ローカルでのファインチューニングが可能になりました。Unslothがデイゼロサポートを提供してくれたことに感謝します(Thanks NVIDIA for giving Unsloth day-zero support. の意図を含意)。

Nemotron 3 SuperNemotron 3 Nano

GGUF: NVIDIA-Nemotron-3-Super-120B-A12B-GGUFarrow-up-right

⚙️ 使用ガイド

NVIDIAは推論に以下の設定を推奨しています:

一般的なチャット/指示(デフォルト):

  • temperature = 1.0

  • top_p = 1.0

ツール呼び出しのユースケース:

  • temperature = 0.6

  • top_p = 0.95

ほとんどのローカル利用では、次を設定してください:

  • max_new_tokens = 32,768262,144 標準プロンプトで最大1Mトークンの場合

  • より深い推論や長文生成には、RAM/VRAMが許す範囲で増やしてください。

チャットテンプレートの形式は以下を使用すると見つかります:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3チャットテンプレート形式:

circle-info

Nemotron 3は <think> (トークンID 12)と </think> (トークンID 13)を推論用に使用します。llama.cppでトークンを確認するには --special を使用してください。場合によっては --verbose-prompt を付けて <think> を確認する必要があるかもしれません。これは前置されているためです。

🖥️ Nemotron-3-Super-120B-A12B を実行する

ユースケースに応じて異なる設定が必要になります。モデルアーキテクチャ(例えば gpt-oss)が128で割り切れない次元を持つため、パーツが低ビットに量子化できず、いくつかのGGUFはサイズが似通ってしまうことがあります。GGUFは こちらarrow-up-right.

モデルの4ビット版は約64GB〜72GBのRAMを必要とします。8ビット版は128GBを必要とします。

Llama.cpp チュートリアル(GGUF):

llama.cppでの実行手順(ほとんどのデバイスに収めるために4ビットを使用する例):

1

最新の llama.cppGitHubのこちらarrow-up-rightから入手してください。下のビルド手順に従うこともできます。変更するのは -DGGML_CUDA=ON-DGGML_CUDA=OFF です(GPUがない場合やCPU推論のみを行う場合)。

circle-exclamation
2

Hugging Faceから直接プルすることもできます。RAM/VRAMが許す範囲でコンテキストを1Mに増やせます。

以下に従って 一般的な指示 のユースケース:

以下に従って ツール呼び出し のユースケース:

3

モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョン、例えば UD-Q4_K_XL などを選べます。サイズと精度のバランスを取るために少なくとも2ビットのダイナミック量子化を推奨します。 UD-Q2_K_XL ダウンロードが止まる場合は次を参照してください: Hugging Face Hub、XET のデバッグ

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256Kを超えるコンテキストウィンドウを扱えることを確認してください。1Mに設定するとCUDAのOOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144になっています。

🦥 Nemotron 3 のファインチューニングと強化学習(RL)

Unslothは現在、Nemotron 3 SuperとNanoを含むすべてのNemotronモデルのファインチューニングをサポートしています。Nanoのノートブック例については、Nemotron 3の Nanoファインチューニングガイド.

Nemotron 3 Super

  • 安定性のため、ルーターレイヤーのファインチューニングはデフォルトで無効になっています。

  • Nemotron-3-Super-120B - bf16 LoRA は256GBのVRAMで動作します。マルチGPUを使用している場合は、 device_map = "balanced" を追加するか、以下の マルチGPUガイド.

に従ってください。

🦙Llama-server のサービングとデプロイ Nemotron 3を本番展開するには、我々は llama-server

--top-p 0.95 \

--port 8001 上記を実行すると、次が得られます:その後、新しいターミナルで

print(completion.choices[0].message.reasoning_content)

2 + 2 は **4** です。

これは基底10(10進表記)での基本的な算術的事実です。もし合同算術、二進法、あるいはジョーク/参照のような別の文脈で尋ねているなら、詳細を教えてください — 喜んで適応します!

最終更新

役に立ちましたか?