🧩NVIDIA Nemotron 3 Nano - 実行ガイド

NVIDIA Nemotron 3 Nano をローカルで実行およびファインチューニングしましょう!

NVIDIAはNemotron 3 Nanoを公開しました。これは約360億のアクティブパラメータを持つ30Bパラメータのハイブリッド推論MoEモデルで、高速かつ正確なコーディング、数学、エージェントタスク向けに設計されています。これには 100万トークンのコンテキストウィンドウ があり、同クラスサイズの中でSWE-Bench、GPQA Diamond、推論、チャット、スループットで最も優れています。

Nemotron 3 Nanoは 24GBのRAM/VRAM(またはユニファイドメモリ)で動作し、今では ファインチューニング をローカルで行うことができます。Unslothにデイゼロサポートを提供してくれたNVIDIAに感謝します。

実行チュートリアルNano 3のファインチューニング

NVIDIA Nemotron 3 Nano GGUFを実行するには: unsloth/Nemotron-3-Nano-30B-A3B-GGUFarrow-up-right また、以下をアップロードしました: BF16arrow-up-rightFP8arrow-up-right のバリアントです。

⚙️ 使用ガイド

NVIDIAは推論のために以下の設定を推奨します:

一般的なチャット/指示(デフォルト):

  • temperature = 1.0

  • top_p = 1.0

ツール呼び出しのユースケース:

  • temperature = 0.6

  • top_p = 0.95

ほとんどのローカル用途では、次を設定してください:

  • max_new_tokens = 32,768262,144 に(最大1Mトークンの標準プロンプト用)

  • RAM/VRAMに余裕がある場合は、深い推論や長文生成のために増やしてください。

チャットテンプレート形式は以下を使用したときに見られます:

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
circle-check

Nemotron 3のチャットテンプレート形式:

circle-info

Nemotron 3は <think> をトークンID12で使い、 </think> をトークンID13で推論に使用します。llama.cppのトークンを確認するには --special を使用してください。先頭に追加されているため、表示するには --verbose-prompt が必要な場合があります。 <think> を表示するためです。

🖥️ Nemotron-3-Nano-30B-A3Bの実行

ユースケースに応じて異なる設定を使用する必要があります。いくつかのGGUFはモデルアーキテクチャ(例えば gpt-oss)の次元が128で割り切れないため、部分的に低ビットに量子化できず、サイズが似たものになることがあります。

モデルの4ビットバージョンは約24GBのRAMを必要とします。8ビットは36GBを必要とします。

Llama.cpp チュートリアル(GGUF):

llama.cppで実行する手順(ほとんどのデバイスに収めるために4ビットを使用します):

1

最新の llama.cppここでGitHubからarrow-up-right入手してください。以下のビルド手順に従うこともできます。変更するのは -DGGML_CUDA=ONから -DGGML_CUDA=OFF に(GPUがない場合やCPU推論のみを行いたい場合)。AppleのMac / Metalデバイスの場合 から 、次を設定してから通常どおり続けてください - Metalサポートはデフォルトでオンです。

2

Hugging Faceから直接プルできます。RAM/VRAMに応じてコンテキストを1Mに増やすことができます。

以下に従って、 一般的な指示 のユースケース:

以下に従って、 ツール呼び出し用 のユースケース:

3

モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer をインストールした後)、 UD-Q4_K_XL や他の量子化バージョンを選択できます。

4

その後、会話モードでモデルを実行します:

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256K以上のコンテキストウィンドウを処理できることを確認してください。1Mに設定するとCUDAのOOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144になっています。

circle-info

Nemotron 3は <think> をトークンID12で使い、 </think> をトークンID13で推論に使用します。llama.cppのトークンを確認するには --special を使用してください。先頭に追加されているため、表示するには --verbose-prompt が必要な場合があります。 <think> を表示するためです。

circle-check

🦥 Nemotron 3 Nanoのファインチューニングと強化学習(RL)

Unslothは現在、Nemotron 3 Nanoを含むすべてのNemotronモデルのファインチューニングをサポートしています。30Bモデルは無料のColab GPUには収まりませんが、ファインチューニング用に80GB A100のColabノートブックを用意しました。Nemotron 3 Nanoの16ビットLoRAファインチューニングではおおよそ 60GBのVRAM:

MoEのファインチューニングについては、ルーターレイヤーをファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。推論能力を維持したい場合(任意)には、直接的な回答とチェーンオブソートの例を混在させることができます。データセットには少なくとも 75%の推論(reasoning)25%の非推論(non-reasoning) を含めて、モデルが推論能力を保持するようにしてください。

強化学習 + NeMo Gym

我々はオープンソースのNVIDIA NeMo Gymarrow-up-right チームと協力して、RL環境の民主化を可能にしました。私たちのコラボは、NeMo Gymのトレーニング環境やデータセットを使用して、数学、コーディング、ツール使用など多くの関心領域に対する単一ターンのロールアウトRLトレーニングを可能にします:

circle-check

🎉Llama-serverのサービングとデプロイ

Nemotron 3を本番展開するために、我々は llama-server を使用します。

--port 8001

上記を実行すると、次のような出力が得られます: その後、新しい端末でpip install openai

print(completion.choices[0].message.content)

ユーザーが単純な質問をします:「What is 2+2?」答えは4です。回答を提供してください。

ベンチマーク結果:Nemotron-3-Nano-30B-A3Bはスループットを含むすべてのベンチマークで最も高い性能を示すモデルです。

最終更新

役に立ちましたか?