🧩NVIDIA Nemotron 3 Nano - 実行ガイド

NVIDIA Nemotron 3 Nano をローカルで実行およびファインチューニングしましょう!

NVIDIAはNemotron 3 Nanoを公開しました。これは約3600Mのアクティブパラメータを持つ30Bパラメータのハイブリッド推論MoEモデルで、高速かつ正確なコーディング、数学、エージェントタスク向けに構築されています。これは 100万トークンのコンテキストウィンドウ で、そのサイズクラスではSWE-Bench、GPQA Diamond、推論、チャット、スループットにおいて最良です。

Nemotron 3 Nanoは 24GBのRAM/VRAM(または統合メモリ)で動作し、ローカルで ファインチューニング 実行できます。Unslothにデイゼロのサポートを提供してくれたNVIDIAに感謝します。

実行チュートリアルNano 3のファインチューニング

NVIDIA Nemotron 3 Nano GGUFを実行するには: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right また私たちは BF16arrow-up-rightFP8arrow-up-right のバリアントもアップロードしました。

⚙️ 使用ガイド

NVIDIAは推論のために以下の設定を推奨しています:

一般的なチャット/指示(デフォルト):

  • temperature = 1.0

  • top_p = 1.0

ツール呼び出しユースケース:

  • temperature = 0.6

  • top_p = 0.95

ほとんどのローカル用途では、次を設定してください:

  • max_new_tokens = 32,768262,144 最大1Mトークンの標準プロンプト用

  • 深い推論や長文生成のためには、RAM/VRAMの許す範囲で増やしてください。

チャットテンプレート形式は下記を使用したときに見られます:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 チャットテンプレート形式:

circle-info

Nemotron 3は <think> トークンID 12を持ち、 </think> 推論用にトークンID 13を持ちます。使用するには --special を使ってllama.cppのトークンを表示してください。場合によっては --verbose-prompt を使って <think> を見る必要があるかもしれません。これは前置されているためです。

🖥️ Nemotron-3-Nano-30B-A3Bを実行する

ユースケースによって異なる設定が必要になります。いくつかのGGUFはモデルアーキテクチャ(例えば gpt-oss)の次元が128で割り切れないため、部分的に低ビット量子化できず、サイズが似通ってしまうことがあります。

Llama.cpp チュートリアル(GGUF):

llama.cppで実行するための手順(ほとんどのデバイスに収めるために4ビットを使用します):

1

最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

2

Hugging Faceから直接プルできます。RAM/VRAMの許す範囲でコンテキストを1Mに増やせます。

次に従ってください( 一般的な指示 ユースケース):

次に従ってください( ツール呼び出し用 ユースケース):

3

モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 UD-Q4_K_XL または他の量子化バージョン。

4

次に会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256Kを超えるコンテキストウィンドウを扱えることを確認してください。1Mに設定するとCUDAのOOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144になっています。

5

Nemotron 3は <think> トークンID 12を持ち、 </think> 推論用にトークンID 13を持ちます。使用するには --special を使ってllama.cppのトークンを表示してください。場合によっては --verbose-prompt を使って <think> を見る必要があるかもしれません。これは前置されているためです。

circle-check

🦥 Nemotron 3 Nanoのファインチューニングと強化学習

Unslothは現在すべてのNemotronモデル(Nemotron 3 Nanoを含む)のファインチューニングをサポートしています。30Bモデルは無料のColab GPUには収まりませんが、ファインチューニング用に80GB A100のColabノートブックを用意しました。Nemotron 3 Nanoの16ビットLoRAファインチューニングは約 60GBのVRAM:

MoEのファインチューニングについて - ルーターレイヤーをファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。推論能力を維持したい場合(任意)、直接回答とチェーン・オブ・ソートの例を混ぜて使用できます。データセットには少なくとも 75%の推論例25%の非推論例 を含めて、モデルの推論能力を保持してください。

強化学習 + NeMo Gym

私たちはオープンソースのNVIDIA NeMo Gymarrow-up-right チームと協力して、RL環境の民主化を可能にしました。私たちのコラボにより、NeMo Gymのトレーニング環境とデータセットを使用して、数学、コーディング、ツール使用など多くのドメインに対して単発のロールアウトRLトレーニングが可能になっています:

circle-check

🎉Llama-server のサービングとデプロイ

Nemotron 3を本番展開するために、私たちは次を使用します return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

上記を実行すると、次が得られます:

その後、新しいターミナルで、を実行した後に: その後、OpenAIのPythonライブラリを使用します(次を行ってください:

これにより次が出力されます

ベンチマーク

Nemotron-3-Nano-30B-A3Bは、スループットを含むすべてのベンチマークで最も高い性能を示すモデルです。

最終更新

役に立ちましたか?