# NVIDIA Nemotron 3 Nano - 実行方法ガイド NVIDIAがリリース **Nemotron-3-Nano-4B**、これは次に続く4BのオープンなハイブリッドMoEモデルです [Nemotron-3-Super-120B-A12B](/docs/jp/moderu/nemotron-3/nemotron-3-super.md) とNemotron-3-Nano-30B-A3Bです。Nemotronファミリーは、高速で正確なコーディング、数学、エージェント的ワークロード向けに設計されています。これらは **100万トークンのコンテキスト** ウィンドウを備え、推論、チャット、スループットのベンチマーク全体で競争力があります。 Nemotron-3-Nano-4Bは **5GB** のRAM、VRAM、またはユニファイドメモリで動作します。Nemotron-3-Nano-30A3Bは **24GB** のRAMで動作します。Nemotron 3は現在、 [Unsloth](https://github.com/unslothai/unsloth)を通じてローカルでファインチューニングできます。Unslothのday-zeroサポートに感謝します。 Nemotron-3-Nano-4B Nemotron-3-Nano-30B-A3B Nemotron 3のファインチューニング | [Nemotron-3-Nano-**4B**-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF) | [Nemotron-3-**Nano-30B-A3B**-GGUF](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) | | -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- | ### ⚙️ 使用ガイド NVIDIAは推論に以下の設定を推奨しています: {% columns %} {% column %} **一般的なチャット/命令（デフォルト）:** * `temperature = 1.0` * `top_p = 1.0` {% endcolumn %} {% column %} **ツール呼び出しのユースケース:** * `temperature = 0.6` * `top_p = 0.95` {% endcolumn %} {% endcolumns %} **ほとんどのローカル用途では、次のように設定します:** * `max_new_tokens` = `32,768` を `262,144` 標準的なプロンプトで、最大100万トークンまで * RAM/VRAMが許す範囲で、深い推論や長文生成のために増やしてください。チャットテンプレート形式は、以下を使用すると確認できます: {% code overflow="wrap" %} ```python tokenizer.apply_chat_template([ {"role" : "user", "content" : "What is 1+1?"}, {"role" : "assistant", "content" : "2"}, {"role" : "user", "content" : "What is 2+2?"} ], add_generation_prompt = True, tokenize = False, ) ``` {% endcode %} {% hint style="success" %} モデルはNoPEで学習されているため、変更する必要があるのは `max_position_embeddings`のみです。モデルは明示的な位置埋め込みを使用しないため、YaRNは不要です。 {% endhint %} #### Nemotron 3のチャットテンプレート形式: {% hint style="info" %} Nemotron 3は `` をトークンID 12で、 `` をトークンID 13で推論に使用します。llama.cppのトークンを確認するには `--special` を使ってください。さらに、 `--verbose-prompt` も必要になる場合があります。これは先頭に付加されるためです。 `` に対応する内容を表示するためです。 {% endhint %} {% code overflow="wrap" lineNumbers="true" %} ``` <|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n\n ``` {% endcode %} ## 🖥️ Nemotron-3-Nano-4Bを実行ユースケースによっては、異なる設定を使う必要があります。いくつかのGGUFは、モデルアーキテクチャ（たとえば [gpt-oss](/docs/jp/moderu/gpt-oss-how-to-run-and-fine-tune.md)）に128で割り切れない次元があるため、パーツをより低いビット数に量子化できず、結果としてサイズが似通うことがあります。モデルの4ビット版には約3GBのRAMが必要です。8ビット版には5GBが必要です。 ### 🦥 Unsloth Studioガイド Nemotron 3は [Unsloth Studio](/docs/jp/xin-zhe/studio.md)で実行およびファインチューニングできます。これはローカルAI向けの新しいオープンソースWeb UIです。Unsloth Studioを使うと、 **MacOS、Windows**、Linux上でモデルをローカル実行でき、さらに: {% columns %} {% column %} * 検索、ダウンロード、 [GGUFの実行](/docs/jp/xin-zhe/studio.md#run-models-locally) およびsafetensorモデル * [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **ウェブ検索** * [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash） * [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-pなど） * llama.cppによる高速なCPU + GPU推論 * [LLMの学習](/docs/jp/xin-zhe/studio.md#no-code-training) VRAMを70%削減して2倍高速 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Unslothをインストールターミナルで次を実行します: **MacOS、Linux、WSL:** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Unslothを起動 **MacOS、Linux、WSL、Windows:** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

**次に `http://localhost:8888` をブラウザで開きます。** {% endstep %} {% step %} #### Nemotron-3-Nano-4Bを検索してダウンロード初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶための短いオンボーディングウィザードが表示されます。いつでもスキップできます。それから [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動し、検索バーでNemotron-3-Nano-4Bを検索して、必要なモデルと量子化版をダウンロードします。

{% endstep %} {% step %} #### Nemotron-3-Nano-4Bを実行 Unsloth Studioを使用している場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。詳細については、 [Unsloth Studio推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

{% endstep %} {% endstepper %} ### llama.cppチュートリアル: llama.cppで実行するための手順（ほぼフル精度のため8ビットを使用します）: {% stepper %} {% step %} 最新の `llama.cpp` を [GitHubこちら](https://github.com/ggml-org/llama.cpp)から入手してください。以下のビルド手順に従うこともできます。GPUがない場合、またはCPU推論のみを使いたい場合は、 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。 {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} Hugging Faceから直接取得できます。RAM/VRAMが許す範囲で、コンテキストを100万まで増やせます。以下に従って **一般的な命令** のユースケースを実行します: ```bash ./llama.cpp/llama-cli \ -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \ --ctx-size 16384 \ --temp 1.0 --top-p 1.0 ``` 以下に従って **ツール呼び出し** のユースケースを実行します: ```bash ./llama.cpp/llama-cli \ -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \ --ctx-size 32768 \ --temp 0.6 --top-p 0.95 ``` {% endstep %} {% step %} モデルをダウンロードします（以下をインストール後: `pip install huggingface_hub hf_transfer` ）。次を選べます `Q8_0` または他の量子化版です。 ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF", local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF", allow_patterns = ["*Q8_0*"], ) ``` {% endstep %} {% step %} その後、会話モードでモデルを実行します: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \ --ctx-size 16384 \ --seed 3407 \ --prio 2 \ --temp 0.6 \ --top-p 0.95 ``` {% endcode %} また、 **コンテキストウィンドウ** も必要に応じて調整してください。ハードウェアが256Kを超えるコンテキストウィンドウに対応できることを確認してください。1Mに設定するとCUDA OOMが発生してクラッシュする可能性があるため、デフォルトは262,144です。 {% endstep %} {% endstepper %} ## 🖥️ Nemotron-3-Nano-30B-A3Bを実行ユースケースによっては、異なる設定を使う必要があります。いくつかのGGUFは、モデルアーキテクチャ（たとえば [gpt-oss](/docs/jp/moderu/gpt-oss-how-to-run-and-fine-tune.md)）に128で割り切れない次元があるため、パーツをより低いビット数に量子化できず、結果としてサイズが似通うことがあります。モデルの4ビット版には約24GBのRAMが必要です。8ビット版には36GBが必要です。 ### 🦥 Unsloth Studioガイドこのチュートリアルでは、 [Unsloth Studio](/docs/jp/xin-zhe/studio.md)を使用します。これはLLMの実行と学習のための新しいWeb UIです。Unsloth Studioを使うと、 **Mac、Windows**、およびLinux上でモデルをローカル実行でき、さらに: {% columns %} {% column %} * 検索、ダウンロード、 [GGUFの実行](/docs/jp/xin-zhe/studio.md#run-models-locally) およびsafetensorモデル * **比較** モデルを **並べて** * [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **ウェブ検索** * [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash） * [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-pなど） * [LLMの学習](/docs/jp/xin-zhe/studio.md#no-code-training) VRAMを70%削減して2倍高速 {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Unslothをインストール **MacOS、Linux、WSL:** ```bash curl -fsSL https://unsloth.ai/main/install.sh | sh ``` **Windows PowerShell:** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% endstep %} {% step %} #### Unsloth Studioのセットアップ（1回）セットアップでは、Node.js（nvm経由）の自動インストール、フロントエンドのビルド、すべてのPython依存関係のインストール、CUDAサポート付きのllama.cppのビルドが行われます。 {% hint style="warning" %} **初回インストールには5〜10分かかることがあります。これは正常です。 `llama.cpp` バイナリをコンパイルする必要があるためです。**中止しないでください。 {% endhint %} {% hint style="info" %} **WSLユーザー:** ビルド依存関係をインストールするために `sudo` パスワードの入力を求められます（`cmake`, `git`, `libcurl4-openssl-dev`). {% endhint %} {% endstep %} {% step %} #### Unslothを起動 **MacOS、Linux、WSL:** ```bash source unsloth_studio/bin/activate unsloth studio -H 0.0.0.0 -p 8888 ``` **Windows PowerShell:** ```bash & .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888 ```

**次に `http://localhost:8888` をブラウザで開きます。** {% endstep %} {% step %} #### Nemotron-3-Nano-30B-A3Bを検索してダウンロード初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶための短いオンボーディングウィザードが表示されます。いつでもスキップできます。それから [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動し、検索バーでNemotron-3-Nano-4Bを検索して、必要なモデルと量子化版をダウンロードします。

{% endstep %} {% step %} #### Nemotron-3-Nano-30B-A3Bを実行 Unsloth Studioを使用している場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。詳細については、 [Unsloth Studio推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

{% endstep %} {% endstepper %} ### llama.cppチュートリアル: llama.cppで実行するための手順（ほとんどのデバイスに収まるよう、4ビットを使用します）: {% stepper %} {% step %} 最新の `llama.cpp` を [GitHubこちら](https://github.com/ggml-org/llama.cpp)から入手してください。以下のビルド手順に従うこともできます。GPUがない場合、またはCPU推論のみを使いたい場合は、 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。 **Apple Mac / Metalデバイスの場合**、次を設定し `-DGGML_CUDA=OFF` その後は通常どおり続けてください - Metalサポートはデフォルトで有効です。 {% code overflow="wrap" %} ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ``` {% endcode %} {% endstep %} {% step %} Hugging Faceから直接取得できます。RAM/VRAMが許す範囲で、コンテキストを100万まで増やせます。以下に従って **一般的な命令** のユースケースを実行します: ```bash ./llama.cpp/llama-cli \ -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \ --ctx-size 32768 \ --temp 1.0 --top-p 1.0 ``` 以下に従って **ツール呼び出し** のユースケースを実行します: ```bash ./llama.cpp/llama-cli \ -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \ --ctx-size 32768 \ --temp 0.6 --top-p 0.95 ``` {% endstep %} {% step %} モデルをダウンロードします（以下をインストール後: `pip install huggingface_hub hf_transfer` ）。次を選べます `UD-Q4_K_XL` または他の量子化版です。 ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF", local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF", allow_patterns = ["*UD-Q4_K_XL*"], ) ``` {% endstep %} {% step %} その後、会話モードでモデルを実行します: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-cli \ --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \ --ctx-size 16384 \ --seed 3407 \ --prio 2 \ --temp 0.6 \ --top-p 0.95 ``` {% endcode %} また、 **コンテキストウィンドウ** も必要に応じて調整してください。ハードウェアが256Kを超えるコンテキストウィンドウに対応できることを確認してください。1Mに設定するとCUDA OOMが発生してクラッシュする可能性があるため、デフォルトは262,144です。 {% hint style="info" %} Nemotron 3は `` をトークンID 12で、 `` をトークンID 13で推論に使用します。llama.cppのトークンを確認するには `--special` を使ってください。さらに、 `--verbose-prompt` も必要になる場合があります。これは先頭に付加されるためです。 `` に対応する内容を表示するためです。 {% endhint %} {% endstep %} {% endstepper %} ### 🦥 Nemotron 3のファインチューニングとRL Unslothは現在、Nemotron 3 SuperとNanoを含むすべてのNemotronモデルのファインチューニングをサポートしています。 4Bモデルは無料のColab GPUに収まりますが、30Bモデルは収まりません。それでも、ファインチューニング用に80GB A100のColabノートブックを用意しました。Nemotron 3 Nanoの16ビットLoRAファインチューニングでは、およそ **60GBのVRAM**: * [Nemotron-3-Nano-30B-A3B SFT LoRAノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb) {% embed url="" %} MoEのファインチューニングについては、ルーターレイヤーをファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。推論能力を維持したい場合（任意）は、直接回答とチェーン・オブ・ソートの例を混ぜて使えます。少なくとも 75%の推論と 25%の非推論をデータセットに含めて、モデルが推論能力を保持するようにしてください。 #### :sparkles:強化学習 + NeMo Gym 私たちはオープンソースのNVIDIA [NeMo Gym](https://github.com/NVIDIA-NeMo/Gym/pull/492) チームと協力して、RL環境の民主化を可能にしました。この共同作業により、NeMo Gymの学習環境とデータセットを使って、数学、コーディング、ツール使用など、関心の高い多くの分野で単一ターンのロールアウトRL学習が可能になります: {% columns %} {% column %} [NeMo Gym Sudoku 強化学習ノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/nemo_gym_sudoku.ipynb) {% embed url="" %} {% endcolumn %} {% column %} [NeMo Gym 複数環境向け強化学習ノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb) {% embed url="" %} {% endcolumn %} {% endcolumns %} {% hint style="success" %} **また、NVIDIA公式Developerブログに掲載された最新の共同作業ガイドもご覧ください:** #### [UnslothでNVIDIA GPU上のLLMをファインチューニングする方法](https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/) {% endhint %} {% embed url="" %} ### 🦙Llama-serverによる提供とデプロイ本番環境でNemotron 3をデプロイするには、 `llama-server` を使用します。新しい端末で、tmux経由などで、以下のようにモデルをデプロイします: {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \ --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \ --alias "unsloth/Nemotron-3-Nano-30B-A3B" \ --prio 3 \ --min_p 0.01 \ --temp 0.6 \ --top-p 0.95 \ --ctx-size 16384 \ --port 8001 ``` {% endcode %} 上記を実行すると、次のようになります:

次に新しい端末で、 `pip install openai`を実行した後、次を行います: {% code overflow="wrap" %} ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Nemotron-3-Nano-30B-A3B", messages = [{"role": "user", "content": "What is 2+2?"},], ) print(completion.choices[0].message.content) ``` {% endcode %} これは次を出力します {% code overflow="wrap" %} ``` ユーザーは簡単な質問をします: "What is 2+2?" 答えは4です。回答を提供してください。 2 + 2 = 4. ``` {% endcode %} ### ベンチマーク Nemotron-3-Nano-4Bは、スループットを含め、そのサイズに対して最高性能のモデルです。

Nemotron-3-Nano-30B-A3Bは、スループットを含むすべてのベンチマークで最高性能のモデルです。

--- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/jp/moderu/nemotron-3.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.