# NVIDIA Nemotron-3-Super: 実行ガイド

NVIDIAが発表 **Nemotron-3-Super-120B-A12B**、12Bのアクティブパラメータを持つ120Bのオープンハイブリッド推論MoEモデルで、以前に発表された [Nemotron-3-Nano](https://unsloth.ai/docs/jp/moderu/nemotron-3)、その30Bの対応モデルに続くものです。Nemotron-3-SuperはマルチエージェントAI向けに高効率と高精度を目指して設計されています。持つ **1Mトークン** のコンテキストウィンドウにより、AIME 2025、Terminal Bench、SWE-Bench Verifiedベンチマークで同クラスの中で先導しており、最高のスループットを達成しています。

Nemotron-3-Superは、 **64GB** のRAM、VRAM、またはユニファイドメモリを搭載したデバイスで動作し、現在ローカルで微調整が可能です。Unslothに日零（day-zero）サポートを提供してくれたNVIDIAに感謝します。

<a href="..#run-nemotron-3-super-120b" class="button primary">Nemotron 3 Super</a><a class="button secondary">Nemotron 3 Nano</a>

GGUF： [Nemotron-3-Super-120B-A12B-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF) • [NVFP4](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4) • [FP8](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-FP8) • [BF16](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B)

### ⚙️ 使用ガイド

NVIDIAは推論に以下の設定を推奨しています：

{% columns %}
{% column %}
**一般的なチャット／指示（デフォルト）：**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**ツール呼び出しのユースケース：**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

**ほとんどのローカル使用では、次を設定してください：**

* `max_new_tokens` = `32,768` を `262,144` 最大1Mトークンの標準プロンプト用に
* RAM/VRAMが許す限り、深い推論や長文生成のために増やしてください。

チャットテンプレート形式は、以下を使用したときに見られます：

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

{% hint style="success" %}
モデルはNoPEで訓練されているため、変更が必要なのは `max_position_embeddings`だけです。モデルは明示的な位置埋め込みを使用していないので、YaRNは必要ありません。
{% endhint %}

#### Nemotron 3チャットテンプレート形式：

{% hint style="info" %}
Nemotron 3は `<think>` （トークンID 12）と `</think>` （トークンID 13）を推論用に使用します。llama.cppのトークンを表示するには `--special` を使用してください。さらに、先頭に付加されるため `--verbose-prompt` を使って `<think>` を確認する必要があるかもしれません。
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n
```

{% endcode %}

### 🖥️ Nemotron-3-Super-120B-A12B を実行する

ユースケースに応じて異なる設定を使用する必要があります。モデルアーキテクチャ（例えば [gpt-oss](https://unsloth.ai/docs/jp/moderu/gpt-oss-how-to-run-and-fine-tune)）は128で割り切れない次元を持つため、一部のGGUFはサイズが似通ることがあります。そのため一部はより低ビットに量子化できません。GGUFは [ここ](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF).

からアクセスできます。モデルの4ビット版は約64GB〜72GBのRAMを必要とします。8ビットは128GBが必要です。

#### Llama.cpp チュートリアル（GGUF）：

llama.cppで実行するための手順（ほとんどのデバイスに収めるために4ビットを使うことにします）：

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHubから入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順に従うこともできます。GPUがない場合やCPU推論のみを行いたい場合は `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Hugging Faceから直接プルできます。RAM/VRAMが許す限りコンテキストを1Mに増やせます。

次に従ってください（ **一般的な指示** ユースケース）：

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 --top-p 1.0
```

次に従ってください（ **ツール呼び出し用** ユースケース）：

```bash
./llama.cpp/llama-cli \
    -hf unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
モデルをダウンロードする（事前に `pip install huggingface_hub hf_transfer` をインストールしてください）。Q4\_K\_Mや他の量子化版（例えば `UD-Q4_K_XL` ）を選択できます。サイズと精度のバランスを取るために少なくとも2ビットのダイナミック量子化を推奨します。 `UD-Q2_K_XL` ダウンロードが止まる場合は、次を参照してください： [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
hf download unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
    --local-dir unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF \
    --include "*UD-Q4_K_XL*" # ダイナミック2ビットの場合は "*UD-Q2_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します：

{% code overflow="wrap" %}

```bash
/llama.cpp/llama-cli \
    --model unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/UD-Q4_K_XL/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL-00001-of-00003.gguf \
    --ctx-size 16384 \
    --seed 3407 \
    --prio 2 \
    --temp 0.6 \
    --top-p 0.95
```

{% endcode %}

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FiGf05CCDNnMGE9g7KtqE%2Fimage.png?alt=media&#x26;token=24cd05c6-4fd5-4e9b-9057-822fe27bf255" alt=""><figcaption></figcaption></figure>

また、必要に応じて **コンテキストウィンドウ** を調整してください。ハードウェアが256K以上のコンテキストウィンドウに対応できることを確認してください。1Mに設定するとCUDAのOOMを引き起こしてクラッシュする可能性があり、これがデフォルトが262,144である理由です。
{% endstep %}
{% endstepper %}

### 🦥 Nemotron 3 の微調整と強化学習（RL）

Unslothは現在、Nemotron 3 SuperやNanoを含むすべてのNemotronモデルの微調整をサポートしています。Nanoのノートブック例については、当社のNemotron 3 [Nano微調整ガイド](https://unsloth.ai/docs/jp/moderu/nemotron-3).

#### Nemotron 3 Super

* を参照してください。ルーター層の微調整は安定性のためデフォルトで無効になっています。
* Nemotron-3-Super-120B - bf16 LoRAは256GBのVRAMで動作します。マルチGPUを使用している場合は、     `device_map = "balanced"` を追加するか、当社の [マルチGPUガイド](https://unsloth.ai/docs/jp/ji-ben/multi-gpu-training-with-unsloth).

### を参照してください。

🦙 llama-server によるサービングとデプロイ `Nemotron 3を本番環境にデプロイするために、私たちは` llama-server

{% code overflow="wrap" %}

```bash
を使用します。
    --model unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/UD-Q4_K_XL/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_XL-00001-of-00003.gguf \
    新しいターミナル（例えばtmuxで）で、次のようにモデルをデプロイします：
    ./llama.cpp/llama-server \
    --alias "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B" \
    --temp 0.6 \
    --prio 3 \
    --ctx-size 16384 \
    --min_p 0.01 \
```

{% endcode %}

\--top-p 0.95 \\

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FfEwDrf2FRCuWV7t7i7L6%2Fimage.png?alt=media&#x26;token=e2449552-27f5-4238-9e09-c708377a4e61" alt=""><figcaption></figcaption></figure>

\--port 8001 `上記を実行すると、次のような出力が得られます：`その後、新しいターミナルで、次を行った後に：

{% code overflow="wrap" %}

```python
pip install openai
、次を実行します：
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
    completion = openai_client.chat.completions.create(
)
model = "unsloth/NVIDIA-Nemotron-3-Super-120B-A12B",
messages = [{"role": "user", "content": "What is 2+2?"},],
```

{% endcode %}

print(completion.choices\[0].message.reasoning\_content)

{% code overflow="wrap" %}

```
print(completion.choices[0].message.content)

これが出力されます：

なるほど、ユーザーは「What is 2+2?（2+2は何ですか？）」と尋ねました。これは非常に基本的な算術の質問のようです。

うーん、注意を払っているかテストしているのか、あるいは数学を学んでいる子供かもしれません。単純な質問をわざと複雑にしないかどうかを確認している人かもしれません。

質問にトリックの兆候がないので、素直に答えるべきです。答えは確実に4なので、基本的な加算を疑う必要はありません。

とはいえ、冗談（例えば「2の大きな値に対して2+2=5」）の伏線かもしれないと一部で思いますが、文脈が示されていないので真面目な問い合わせと仮定します。

明確で親しみやすい答えをするのが良いでしょう — 学んでいる人ならさらに質問してもらえるかもしれません。余計な飾りは不要で、事実を役立つ形で述べます。
```

{% endcode %}

### 2 + 2 は \*\*4\*\* です。

これは十進法（基数10）の基本的な算術事実です。もし剰余算（合同算術）、二進数、あるいはジョーク／参照など別の文脈での質問であれば、詳細を教えてください — 調整してお答えします！😊

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fe2p2jCqKu7D9pTtJpOQN%2Faccuracy_chart(1).png?alt=media&#x26;token=df1805ab-f005-4a7f-bd77-b91f84a2c76f" alt=""><figcaption></figcaption></figure>
