🧩NVIDIA Nemotron 3 Nano - 実行ガイド

NVIDIA Nemotron 3 Nanoをローカルで実行およびファインチューニングしましょう!

NVIDIAがリリース Nemotron-3-Nano-4B、4BのオープンハイブリッドMoEモデルで、以下に続きます Nemotron-3-Super-120B-A12B および Nemotron-3-Nano-30B-A3B。Nemotronファミリーは、コーディング、数学、エージェント的なワークロードに対して高速かつ高精度を目指して設計されています。これらは 1Mトークンのコンテキスト ウィンドウを備え、推論、チャット、スループットのベンチマークで競争力があります。

Nemotron-3-Nano-4Bは 5GB のRAM、VRAM、またはユニファイドメモリで動作します。Nemotron-3-Nano-30A3Bは 24GB のRAMで動作します。Nemotron 3は現在、 Unslotharrow-up-rightを介してローカルでファインチューニングできるようになりました。Unslothに対するデイゼロサポートを提供してくれたNVIDIAに感謝します。

Nemotron-3-Nano-4BNemotron-3-Nano-30B-A3BNemotron 3のファインチューニング

⚙️ 使用ガイド

NVIDIAは推論に以下の設定を推奨しています:

一般的なチャット/指示(デフォルト):

  • temperature = 1.0

  • top_p = 1.0

ツール呼び出しユースケース:

  • temperature = 0.6

  • top_p = 0.95

ほとんどのローカル用途では、次を設定してください:

  • max_new_tokens = 32,768262,144 標準プロンプトで最大1Mトークン用

  • RAM/VRAMの許す限り、深い推論や長文生成では増やしてください。

チャットテンプレートの形式は、以下を使用したときに見られます:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3チャットテンプレート形式:

circle-info

Nemotron 3は <think> (トークンID 12)と </think> (トークンID 13)を推論用に使用します。llama.cppのトークンを確認するには --special を使用してください。先頭に付加されるため、表示するには --verbose-prompt が必要になる場合があります。 <think> として表示されます。

🖥️ Nemotron-3-Nano-4Bを実行する

使用ケースによっては異なる設定を使用する必要があります。いくつかのGGUFはモデルアーキテクチャ(例えば gpt-oss)が128で割り切れない次元を持つため、部分的に低ビットへ量子化できず、サイズが似通うことがあります。

モデルの4ビット版は約3GBのRAMを必要とします。8ビットは5GBを必要とします。

Llama.cpp チュートリアル(GGUF):

llama.cppでの実行手順(ほぼフル精度のために8ビットを使用します):

1

最新の llama.cppGitHubから入手してくださいarrow-up-right。以下のビルド手順にも従えます。GPUがない場合やCPU推論のみを行いたい場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。

2

Hugging Faceから直接プルすることもできます。コンテキストはRAM/VRAMの許す限り1Mまで増やせます。

次に従ってください( 一般的な指示 のユースケース):

次に従ってください( ツール呼び出し用 のユースケース):

3

モデルをダウンロードします(事前に pip install huggingface_hub hf_transfer をインストールしてください)。次に、 Q8_0 やその他の量子化版を選択できます。

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256Kを超えるコンテキストウィンドウを扱えることを確認してください。1Mに設定するとCUDA OOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144になっています。

🖥️ Nemotron-3-Nano-30B-A3Bを実行する

使用ケースによっては異なる設定を使用する必要があります。いくつかのGGUFはモデルアーキテクチャ(例えば gpt-oss)が128で割り切れない次元を持つため、部分的に低ビットへ量子化できず、サイズが似通うことがあります。

モデルの4ビット版は約24GBのRAMを必要とします。8ビットは36GBを必要とします。

Llama.cpp チュートリアル(GGUF):

llama.cppでの実行手順(ほとんどのデバイスに合わせるために4ビットを使用します):

1

最新の llama.cppGitHubから入手してくださいarrow-up-right。以下のビルド手順にも従えます。GPUがない場合やCPU推論のみを行いたい場合は、 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。 AppleのMac / Metalデバイスの場合、次を設定し -DGGML_CUDA=OFF その後は通常通り続けてください - Metalサポートはデフォルトで有効です。

2

Hugging Faceから直接プルすることもできます。コンテキストはRAM/VRAMの許す限り1Mまで増やせます。

次に従ってください( 一般的な指示 のユースケース):

次に従ってください( ツール呼び出し用 のユースケース):

3

モデルをダウンロードします(事前に pip install huggingface_hub hf_transfer をインストールしてください)。次に、 UD-Q4_K_XL やその他の量子化版を選択できます。

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256Kを超えるコンテキストウィンドウを扱えることを確認してください。1Mに設定するとCUDA OOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144になっています。

circle-info

Nemotron 3は <think> (トークンID 12)と </think> (トークンID 13)を推論用に使用します。llama.cppのトークンを確認するには --special を使用してください。先頭に付加されるため、表示するには --verbose-prompt が必要になる場合があります。 <think> として表示されます。

🦥 Nemotron 3のファインチューニングと強化学習

Unslothは現在、Nemotron 3 SuperやNanoを含むすべてのNemotronモデルのファインチューニングをサポートしています。

4Bモデルは無料のColab GPUに収まりますが、30Bモデルは収まりません。それでも、ファインチューニング用に80GBのA100 Colabノートブックを用意しました。Nemotron 3 Nanoの16ビットLoRAファインチューニングは約 60GBのVRAM:

MoEのファインチューニングについて - ルーター層をファインチューニングするのはあまり良い考えではない可能性があるため、デフォルトで無効にしています。推論能力を維持したい場合(任意)は、直接回答と思考過程(chain-of-thought)の例を混ぜて使用できます。データセットには少なくとも 75%の推論25%の非推論 を含めて、モデルが推論能力を保持するようにしてください。

強化学習 + NeMo Gym

我々はオープンソースのNVIDIAと協力しました NeMo Gymarrow-up-right チームと協力して、RL環境の民主化を可能にしました。私たちのコラボは、NeMo Gymのトレーニング環境とデータセットを使用して、数学、コーディング、ツール使用など多くの関心領域に対する単一ターンのロールアウトRLトレーニングを可能にします:

circle-check

🦙Llama-server のサービングとデプロイ

Nemotron 3を本番展開するには、我々は llama-server を使用します。新しいターミナル(例えばtmux経由)でモデルをデプロイするには:

上記を実行すると、次のようになります:

その後、新しいターミナルで、 pip install openaiを実行した後、次を行います:

これにより次が表示されます

ベンチマーク

Nemotron-3-Nano-4Bは、そのサイズにおいてスループットを含め最も高性能なモデルです。

Nemotron-3-Nano-30B-A3Bは、スループットを含むすべてのベンチマークで最も高性能なモデルです。

最終更新

役に立ちましたか?