🧩NVIDIA Nemotron-3-Super: 実行ガイド

NVIDIA Nemotron-3-Super-120B-A12Bをローカルで実行およびファインチューニングしましょう!

NVIDIAが発表 Nemotron-3-Super-120B-A12B、12Bのアクティブパラメータを持つ120Bのオープンハイブリッド推論MoEモデルで、以前に発表された Nemotron-3-Nano、その30Bの対応モデルに続くものです。Nemotron-3-SuperはマルチエージェントAI向けに高効率と高精度を目指して設計されています。持つ 1Mトークン のコンテキストウィンドウにより、AIME 2025、Terminal Bench、SWE-Bench Verifiedベンチマークで同クラスの中で先導しており、最高のスループットを達成しています。

Nemotron-3-Superは、 64GB のRAM、VRAM、またはユニファイドメモリを搭載したデバイスで動作し、現在ローカルで微調整が可能です。Unslothに日零(day-zero)サポートを提供してくれたNVIDIAに感謝します。

Nemotron 3 SuperNemotron 3 Nano

GGUF: Nemotron-3-Super-120B-A12B-GGUFarrow-up-rightNVFP4arrow-up-rightFP8arrow-up-rightBF16arrow-up-right

⚙️ 使用ガイド

NVIDIAは推論に以下の設定を推奨しています:

一般的なチャット/指示(デフォルト):

  • temperature = 1.0

  • top_p = 1.0

ツール呼び出しのユースケース:

  • temperature = 0.6

  • top_p = 0.95

ほとんどのローカル使用では、次を設定してください:

  • max_new_tokens = 32,768262,144 最大1Mトークンの標準プロンプト用に

  • RAM/VRAMが許す限り、深い推論や長文生成のために増やしてください。

チャットテンプレート形式は、以下を使用したときに見られます:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3チャットテンプレート形式:

circle-info

Nemotron 3は <think> (トークンID 12)と </think> (トークンID 13)を推論用に使用します。llama.cppのトークンを表示するには --special を使用してください。さらに、先頭に付加されるため --verbose-prompt を使って <think> を確認する必要があるかもしれません。

🖥️ Nemotron-3-Super-120B-A12B を実行する

ユースケースに応じて異なる設定を使用する必要があります。モデルアーキテクチャ(例えば gpt-oss)は128で割り切れない次元を持つため、一部のGGUFはサイズが似通ることがあります。そのため一部はより低ビットに量子化できません。GGUFは ここarrow-up-right.

からアクセスできます。モデルの4ビット版は約64GB〜72GBのRAMを必要とします。8ビットは128GBが必要です。

Llama.cpp チュートリアル(GGUF):

llama.cppで実行するための手順(ほとんどのデバイスに収めるために4ビットを使うことにします):

1

最新の llama.cppGitHubから入手してくださいarrow-up-right。以下のビルド手順に従うこともできます。GPUがない場合やCPU推論のみを行いたい場合は -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。

2

Hugging Faceから直接プルできます。RAM/VRAMが許す限りコンテキストを1Mに増やせます。

次に従ってください( 一般的な指示 ユースケース):

次に従ってください( ツール呼び出し用 ユースケース):

3

モデルをダウンロードする(事前に pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化版(例えば UD-Q4_K_XL )を選択できます。サイズと精度のバランスを取るために少なくとも2ビットのダイナミック量子化を推奨します。 UD-Q2_K_XL ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256K以上のコンテキストウィンドウに対応できることを確認してください。1Mに設定するとCUDAのOOMを引き起こしてクラッシュする可能性があり、これがデフォルトが262,144である理由です。

🦥 Nemotron 3 の微調整と強化学習(RL)

Unslothは現在、Nemotron 3 SuperやNanoを含むすべてのNemotronモデルの微調整をサポートしています。Nanoのノートブック例については、当社のNemotron 3 Nano微調整ガイド.

Nemotron 3 Super

  • を参照してください。ルーター層の微調整は安定性のためデフォルトで無効になっています。

  • Nemotron-3-Super-120B - bf16 LoRAは256GBのVRAMで動作します。マルチGPUを使用している場合は、 device_map = "balanced" を追加するか、当社の マルチGPUガイド.

を参照してください。

🦙 llama-server によるサービングとデプロイ Nemotron 3を本番環境にデプロイするために、私たちは llama-server

--top-p 0.95 \

--port 8001 上記を実行すると、次のような出力が得られます:その後、新しいターミナルで、次を行った後に:

print(completion.choices[0].message.reasoning_content)

2 + 2 は **4** です。

これは十進法(基数10)の基本的な算術事実です。もし剰余算(合同算術)、二進数、あるいはジョーク/参照など別の文脈での質問であれば、詳細を教えてください — 調整してお答えします!😊

最終更新

役に立ちましたか?