🧩NVIDIA Nemotron 3 Nano - 実行ガイド

NVIDIA Nemotron 3 Nano をローカルで実行およびファインチューニングしましょう！

NVIDIAはNemotron 3 Nanoを公開しました。これは約3600Mのアクティブパラメータを持つ30Bパラメータのハイブリッド推論MoEモデルで、高速かつ正確なコーディング、数学、エージェントタスク向けに構築されています。これは 100万トークンのコンテキストウィンドウ で、そのサイズクラスではSWE-Bench、GPQA Diamond、推論、チャット、スループットにおいて最良です。

Nemotron 3 Nanoは 24GBのRAM/VRAM（または統合メモリ）で動作し、ローカルで ファインチューニング 実行できます。Unslothにデイゼロのサポートを提供してくれたNVIDIAに感謝します。

実行チュートリアル Nano 3のファインチューニング

NVIDIA Nemotron 3 Nano GGUFを実行するには： unsloth/Nemotron-3-Nano-30B-A3B-GGUF また私たちは BF16 と FP8 のバリアントもアップロードしました。

⚙️ 使用ガイド

NVIDIAは推論のために以下の設定を推奨しています：

一般的なチャット／指示（デフォルト）：

temperature = 1.0
top_p = 1.0

ツール呼び出しユースケース：

temperature = 0.6
top_p = 0.95

ほとんどのローカル用途では、次を設定してください：

max_new_tokens = 32,768 に 262,144 最大1Mトークンの標準プロンプト用
深い推論や長文生成のためには、RAM/VRAMの許す範囲で増やしてください。

チャットテンプレート形式は下記を使用したときに見られます：

tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)

Nemotron 3 チャットテンプレート形式：

Nemotron 3は <think> トークンID 12を持ち、 </think> 推論用にトークンID 13を持ちます。使用するには --special を使ってllama.cppのトークンを表示してください。場合によっては --verbose-prompt を使って <think> を見る必要があるかもしれません。これは前置されているためです。

<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n

🖥️ Nemotron-3-Nano-30B-A3Bを実行する

ユースケースによって異なる設定が必要になります。いくつかのGGUFはモデルアーキテクチャ（例えば gpt-oss）の次元が128で割り切れないため、部分的に低ビット量子化できず、サイズが似通ってしまうことがあります。

Llama.cpp チュートリアル（GGUF）：

llama.cppで実行するための手順（ほとんどのデバイスに収めるために4ビットを使用します）：

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Hugging Faceから直接プルできます。RAM/VRAMの許す範囲でコンテキストを1Mに増やせます。

次に従ってください（ 一般的な指示 ユースケース）：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 1.0 --top-p 1.0 --fit on

次に従ってください（ ツール呼び出し用 ユースケース）：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --jinja --ctx-size 32768 \
    --temp 0.6 --top-p 0.95 --fit on

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 UD-Q4_K_XL または他の量子化バージョン。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

次に会話モードでモデルを実行します：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --jinja \
    --alias "unsloth/GLM-4.7" \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --prio 2 \
    --temp 0.6 \
    --temp 1.0 \
    --jinja

また、必要に応じて コンテキストウィンドウ を調整してください。ハードウェアが256Kを超えるコンテキストウィンドウを扱えることを確認してください。1Mに設定するとCUDAのOOMを引き起こしてクラッシュする可能性があるため、デフォルトは262,144になっています。

モデルは NoPEで訓練されているため、変更する必要があるのは max_position_embeddingsだけです。モデルは明示的な位置埋め込みを使用しないため、 YaRNは必要ありません.

🦥 Nemotron 3 Nanoのファインチューニングと強化学習

Unslothは現在すべてのNemotronモデル（Nemotron 3 Nanoを含む）のファインチューニングをサポートしています。30Bモデルは無料のColab GPUには収まりませんが、ファインチューニング用に80GB A100のColabノートブックを用意しました。Nemotron 3 Nanoの16ビットLoRAファインチューニングは約 60GBのVRAM:

Nemotron-3-Nano-30B-A3B SFT LoRAノートブック

Google Colabcolab.research.google.com

MoEのファインチューニングについて - ルーターレイヤーをファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。推論能力を維持したい場合（任意）、直接回答とチェーン・オブ・ソートの例を混ぜて使用できます。データセットには少なくとも 75%の推論例と 25%の非推論例を含めて、モデルの推論能力を保持してください。

✨強化学習 + NeMo Gym

私たちはオープンソースのNVIDIA NeMo Gym チームと協力して、RL環境の民主化を可能にしました。私たちのコラボにより、NeMo Gymのトレーニング環境とデータセットを使用して、数学、コーディング、ツール使用など多くのドメインに対して単発のロールアウトRLトレーニングが可能になっています：

NeMo Gym Sudoku 強化学習ノートブック

Google Colabcolab.research.google.com

NeMo Gym マルチ環境強化学習ノートブック

Google Colabcolab.research.google.com

また、NVIDIAの公式開発者ブログに掲載された最新のコラボガイドもご覧ください：

UnslothでNVIDIA GPU上のLLMをファインチューニングする方法

How to Fine-Tune an LLM on NVIDIA GPUs With UnslothNVIDIA Blog

🎉Llama-server のサービングとデプロイ

Nemotron 3を本番展開するために、私たちは次を使用します return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします：

./llama.cpp/llama-server \
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --alias "unsloth/GLM-4.7" \
    --fit on \
    --min_p 0.01 \
    --temp 0.6 \
    --temp 1.0 \
    --jinja \
    --port 8001 \
    --jinja

上記を実行すると、次が得られます：

その後、新しいターミナルで、を実行した後に： その後、OpenAIのPythonライブラリを使用します（次を行ってください：

from openai import OpenAI
）
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
base_url = "http://127.0.0.1:8001/v1",
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    completion = openai_client.chat.completions.create(
)
print(completion.choices[0].message.content)

これにより次が出力されます

ユーザーが単純な質問をします："2+2は何ですか？" 答えは4です。回答を提供してください。

2 + 2 = 4.

ベンチマーク

Nemotron-3-Nano-30B-A3Bは、スループットを含むすべてのベンチマークで最も高い性能を示すモデルです。

前へGLM-4.7 次へQwen-Image-2512

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtagNemotron 3 チャットテンプレート形式：

hashtag🖥️ Nemotron-3-Nano-30B-A3Bを実行する

hashtagLlama.cpp チュートリアル（GGUF）：

hashtag🦥 Nemotron 3 Nanoのファインチューニングと強化学習

hashtag✨強化学習 + NeMo Gym

hashtagUnslothでNVIDIA GPU上のLLMをファインチューニングする方法arrow-up-right

hashtag🎉Llama-server のサービングとデプロイ

hashtagベンチマーク

⚙️ 使用ガイド

Nemotron 3 チャットテンプレート形式：

🖥️ Nemotron-3-Nano-30B-A3Bを実行する

Llama.cpp チュートリアル（GGUF）：

🦥 Nemotron 3 Nanoのファインチューニングと強化学習

✨強化学習 + NeMo Gym

UnslothでNVIDIA GPU上のLLMをファインチューニングする方法

🎉Llama-server のサービングとデプロイ

ベンチマーク