🧩NVIDIA Nemotron 3 Nano - 実行ガイド

NVIDIA Nemotron 3 Nano をローカルで実行&ファインチューニングしましょう!

NVIDIAはNemotron 3 Nanoを公開しました。これは約30Bパラメータのハイブリッド推論MoEモデルで、アクティブパラメータは約3.6Bです — 高速で正確なコーディング、数学、エージェントタスク向けに構築されています。特徴として 1Mのコンテキストウィンドウ を持ち、SWE-Bench、GPQA Diamond、推論、チャットおよびスループットで同クラス中最高です。

Nemotron 3 Nanoは 24GBのRAM/VRAM(またはユニファイドメモリ)で動作し、そして今あなたは ファインチューン それをローカルで実行できます。Unslothにデイゼロサポートを提供してくれたNVIDIAに感謝します。

実行チュートリアルNano 3のファインチューニング

NVIDIA Nemotron 3 Nano GGUF を実行するために: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right 私たちはまた BF16arrow-up-right および FP8arrow-up-right のバリアントもアップロードしました。

⚙️ 使用ガイド

NVIDIAは推論のために以下の設定を推奨しています:

一般的なチャット/指示(デフォルト):

  • temperature = 1.0

  • top_p = 1.0

ツールコーリングのユースケース:

  • temperature = 0.6

  • top_p = 0.95

ほとんどのローカル利用では、次を設定してください:

  • max_new_tokens = 32,768 から 262,144 最大1Mトークンの標準プロンプト用に

  • 深い推論や長文生成の場合は、RAM/VRAMの許す範囲で増やしてください。

チャットテンプレートの形式は以下を使用したときに見られます:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3チャットテンプレート形式:

circle-info

Nemotron 3は <think> をトークンID 12で使用し、 </think> を推論用にトークンID 13で使用します。使用するには --special を使ってllama.cppのトークンを表示してください。また必要に応じて --verbose-prompt を使って <think> を確認してください。これは前置されているためです。

🖥️ Nemotron-3-Nano-30B-A3B を実行

ユースケースによって異なる設定を使用する必要があります。いくつかのGGUFはモデルアーキテクチャ(例えば gpt-oss)の次元が128で割り切れないため、サイズが似通ってしまい、一部を低ビットで量子化できません。

Llama.cpp チュートリアル(GGUF):

llama.cppでの実行手順(ほとんどのデバイスに収めるために4ビットを使用します):

1

最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

2

Hugging Faceから直接プルできます。RAM/VRAMの許す範囲でコンテキストを1Mに増やせます。

次に従ってください(これは 一般的な指示 ユースケース用です):

次に従ってください(これは ツールコーリング ユースケース用です):

3

(以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD-Q4_K_XL や他のもの。

4

次にモデルを会話モードで実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256K以上のコンテキストウィンドウを処理できることを確認してください。1Mに設定するとCUDA OOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144です。

5

Nemotron 3は <think> をトークンID 12で使用し、 </think> を推論用にトークンID 13で使用します。使用するには --special を使ってllama.cppのトークンを表示してください。また必要に応じて --verbose-prompt を使って <think> を確認してください。これは前置されているためです。

circle-check

🦥 Nemotron 3 Nano のファインチューニングとRL

Unslothは現在すべてのNemotronモデル(Nemotron 3 Nanoを含む)のファインチューニングをサポートしています。30Bモデルは無料のColab GPUには収まりませんが、ファインチューニング用に80GB A100のColabノートブックを用意しました。Nemotron 3 Nanoの16ビットLoRAファインチューニングはおおよそ 60GBのVRAM:

MoEのファインチューニングについて - ルーターレイヤーをファインチューニングするのはあまり良い考えではない可能性があるため、デフォルトで無効にしています。推論能力を維持したい場合(任意)、直接回答とチェーン・オブ・ソートの例を混ぜて使用できます。データセットには少なくとも 75%の推論(reasoning) および 25%の非推論(non-reasoning) を含めて、モデルが推論能力を保持するようにしてください。

強化学習 + NeMo Gym

私たちはオープンソースのNVIDIA NeMo Gymarrow-up-right チームと協力して、RL環境の民主化を可能にしました。私たちのコラボは、数学、コーディング、ツール使用など多くの関心領域に対して、NeMo Gymのトレーニング環境とデータセットを使用したシングルトーンのロールアウトRLトレーニングを可能にします:

circle-check

🎉Llama-server によるサービングとデプロイ

Nemotron 3を本番展開するには、私たちは次を使用します llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

上記を実行すると、次が得られます:

その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:

これにより次が表示されます

ベンチマーク

Nemotron-3-Nano-30B-A3Bは、スループットを含むすべてのベンチマークで最も高い性能を示すモデルです。

最終更新

役に立ちましたか?