> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/jp/moderu/nemotron-3.md).

# NVIDIA Nemotron 3 Nano - 実行方法ガイド

NVIDIA がリリース **Nemotron-3-Nano-4B**、4B のオープンなハイブリッド MoE モデルで、 [Nemotron-3-Super-120B-A12B](/docs/jp/moderu/nemotron-3/nemotron-3-super.md) および Nemotron-3-Nano-30B-A3B に続くものです。Nemotron ファミリーは、高速で正確なコーディング、数学、エージェント系ワークロード向けに設計されています。これらは **100万トークンのコンテキスト** ウィンドウを備え、推論、チャット、スループットの各ベンチマークで競争力があります。

Nemotron-3-Nano-4B は **5GB** の RAM、VRAM、または統合メモリで動作します。Nemotron-3-Nano-30A3B は **24GB** の RAM で動作します。Nemotron 3 は現在、以下を介してローカルでファインチューニングできます [Unsloth](https://github.com/unslothai/unsloth)。Unsloath に day-zero サポートを提供してくれた NVIDIA に感謝します。

<a href="/pages/6b8d31fd5301efc60f6ff33d32a66c700ccee8ba#run-nemotron-3-nano-4b" class="button primary">Nemotron-3-Nano-4B</a><a href="/pages/6b8d31fd5301efc60f6ff33d32a66c700ccee8ba#run-nemotron-3-nano-30b-a3b" class="button primary">Nemotron-3-Nano-30B-A3B</a><a href="https://docs.unsloth.ai/models/nemotron-3#fine-tuning-nemotron-3-nano-and-rl" class="button secondary">Nemotron 3 のファインチューニング</a>

| [Nemotron-3-Nano-**4B**-GGUF](https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF) | [Nemotron-3-**Nano-30B-A3B**-GGUF](https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF) |
| -------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------- |

### ⚙️ 使用ガイド

NVIDIA は推論用に次の設定を推奨しています:

{% columns %}
{% column %}
**一般的なチャット/インストラクション（デフォルト）:**

* `temperature = 1.0`
* `top_p = 1.0`
  {% endcolumn %}

{% column %}
**ツール呼び出しのユースケース:**

* `temperature = 0.6`
* `top_p = 0.95`
  {% endcolumn %}
  {% endcolumns %}

**ほとんどのローカル利用では、次のように設定します:**

* `max_new_tokens` = `32,768` を `262,144` 最大 100万トークンの標準プロンプト向け
* 必要に応じて、RAM/VRAM の許す範囲で深い推論や長文生成向けに増やしてください。

チャットテンプレートの形式は、以下を使用すると確認できます:

{% code overflow="wrap" %}

```python
tokenizer.apply_chat_template([
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role" : "user", "content" : "What is 2+2?"}
    ], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

{% hint style="success" %}
このモデルは NoPE で学習されているため、変更する必要があるのは `max_position_embeddings`のみです。モデルは明示的な位置埋め込みを使わないため、YaRN は不要です。
{% endhint %}

#### Nemotron 3 のチャットテンプレート形式:

{% hint style="info" %}
Nemotron 3 は `<think>` トークン ID 12 で `</think>` トークン ID 13 で推論を行います。 `--special` を使うと llama.cpp のトークンを確認できます。必要に応じて `--verbose-prompt` を使って `<think>` 先頭に付加されているため表示してください。
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<|im_start|>system\n<|im_end|>\n<|im_start|>user\nWhat is 1+1?<|im_end|>\n<|im_start|>assistant\n<think></think>2<|im_end|>\n<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n
```

{% endcode %}

## 🖥️ Nemotron-3-Nano-4B を実行

用途によって、異なる設定を使う必要があります。一部の GGUF は、モデルアーキテクチャ（たとえば [gpt-oss](/docs/jp/moderu/gpt-oss-how-to-run-and-fine-tune.md)）の次元が 128 で割り切れないため、サイズが近くなり、いくつかの部分を低ビットに量子化できません。

モデルの 4-bit 版には約 3GB の RAM が必要です。8-bit 版には 5GB が必要です。

### 🦥 Unsloth Studio ガイド

Nemotron 3 は [Unsloth Studio](/docs/jp/xin-zhe/studio.md)で実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます **MacOS、Windows**、Linux および:

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行](/docs/jp/xin-zhe/studio.md#run-models-locally) し、safetensor モデルを扱う
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web 検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-p など）
* llama.cpp を介した高速な CPU + GPU 推論
* [LLM を学習する](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM を 70% 少なくして 2 倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/c32867f999db074387ac16732ce548485cc593de" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unslothをインストールする

ターミナルで実行:

**MacOS、Linux、WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth を起動

**MacOS、Linux、WSL、Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/698ae7636b7c9b8a8122c6fbdabc1bd2273fdb2c" alt="" width="375"><figcaption></figcaption></figure></div>

**その後、 `http://localhost:8888` をブラウザで開いてください。**
{% endstep %}

{% step %}

#### Nemotron-3-Nano-4B を検索してダウンロード

初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

その後、 [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動し、検索バーで Nemotron-3-Nano-4B を検索して、希望するモデルと量子化をダウンロードします。

<div data-with-frame="true"><figure><img src="/files/3fdd7f911dd28eedc74063f6d550adca59695839" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-4B を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 [Unsloth Studio 推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/44d9105dd956eac31f9586bcf01055a289b0ef3e" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Llama.cpp チュートリアル:

llama.cpp で実行するための手順（ほぼフル精度にするため 8-bit を使用します）:

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)から取得してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Hugging Face から直接取得できます。RAM/VRAM が許す範囲でコンテキストを 100万 に増やせます。

以下に従って **一般的なインストラクション** のユースケースに対応してください:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \
    --ctx-size 16384 \\
    --temp 1.0 --top-p 1.0
```

以下に従って **ツール呼び出し** のユースケースに対応してください:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF:Q8_0 \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
モデルのダウンロード（ `pip install huggingface_hub hf_transfer` のインストール後）。 `Q8_0` または他の量子化版を選べます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    local_dir = "unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF",
    allow_patterns = ["*Q8_0*"],
)
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/NVIDIA-Nemotron-3-Nano-4B-GGUF/NVIDIA-Nemotron-3-Nano-4B-Q8_0.gguf \
    --ctx-size 16384 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95
```

{% endcode %}

また、 **コンテキストウィンドウ** も必要に応じて調整してください。ハードウェアが 256K を超えるコンテキストウィンドウに対応できることを確認してください。1M に設定すると CUDA の OOM を引き起こしてクラッシュする可能性があるため、デフォルトは 262,144 です。
{% endstep %}
{% endstepper %}

## 🖥️ Nemotron-3-Nano-30B-A3B を実行

用途によって、異なる設定を使う必要があります。一部の GGUF は、モデルアーキテクチャ（たとえば [gpt-oss](/docs/jp/moderu/gpt-oss-how-to-run-and-fine-tune.md)）の次元が 128 で割り切れないため、サイズが近くなり、いくつかの部分を低ビットに量子化できません。

モデルの 4-bit 版には約 24GB の RAM が必要です。8-bit 版には 36GB が必要です。

### 🦥 Unsloth Studio ガイド

このチュートリアルでは、 [Unsloth Studio](/docs/jp/xin-zhe/studio.md)、これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます **Mac、Windows**、Linux 上で入力でき、さらに次のことができます:

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUF を実行](/docs/jp/xin-zhe/studio.md#run-models-locally) し、safetensor モデルを扱う
* **モデルを** 比較する **横並びで**
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web 検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-p など）
* [LLM を学習する](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM を 70% 少なくして 2 倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/c32867f999db074387ac16732ce548485cc593de" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unslothをインストールする

**MacOS、Linux、WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio をセットアップ（1回のみ）

セットアップでは自動的に Node.js（nvm 経由）をインストールし、フロントエンドをビルドし、必要な Python 依存関係をすべてインストールし、CUDA サポート付きで llama.cpp をビルドします。

{% hint style="info" %}
**WSL ユーザー:** 次のインストールのために `sudo` パスワードの入力を求められます（ビルド依存関係のインストール用: `cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth を起動

**MacOS、Linux、WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows Powershell:**

```bash
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/698ae7636b7c9b8a8122c6fbdabc1bd2273fdb2c" alt="" width="375"><figcaption></figcaption></figure></div>

**その後、 `http://localhost:8888` をブラウザで開いてください。**
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B を検索してダウンロード

初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

その後、 [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動し、検索バーで Nemotron-3-Nano-4B を検索して、希望するモデルと量子化をダウンロードします。

<div data-with-frame="true"><figure><img src="/files/4c08a7090e3e8716d80637bf268c8530648c0065" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Nemotron-3-Nano-30B-A3B を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 [Unsloth Studio 推論ガイド](/docs/jp/xin-zhe/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/44d9105dd956eac31f9586bcf01055a289b0ef3e" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Llama.cpp チュートリアル:

llama.cpp で実行するための手順（ほとんどのデバイスに収まるよう 4-bit を使用します）:

{% stepper %}
{% step %}
最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)から取得してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、次を設定して `-DGGML_CUDA=OFF` その後は通常どおり続けてください - Metal サポートは既定で有効です。

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Hugging Face から直接取得できます。RAM/VRAM が許す範囲でコンテキストを 100万 に増やせます。

以下に従って **一般的なインストラクション** のユースケースに対応してください:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 1.0 --top-p 1.0
```

以下に従って **ツール呼び出し** のユースケースに対応してください:

```bash
./llama.cpp/llama-cli \\
    -hf unsloth/Nemotron-3-Nano-30B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 32768 \
    --temp 0.6 --top-p 0.95
```

{% endstep %}

{% step %}
モデルのダウンロード（ `pip install huggingface_hub hf_transfer` のインストール後）。 `UD-Q4_K_XL` または他の量子化版を選べます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    local_dir = "unsloth/Nemotron-3-Nano-30B-A3B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --ctx-size 16384 \\
    --seed 3407 \\
    --prio 2 \\
    --temp 0.6 \\
    --top-p 0.95
```

{% endcode %}

また、 **コンテキストウィンドウ** も必要に応じて調整してください。ハードウェアが 256K を超えるコンテキストウィンドウに対応できることを確認してください。1M に設定すると CUDA の OOM を引き起こしてクラッシュする可能性があるため、デフォルトは 262,144 です。

{% hint style="info" %}
Nemotron 3 は `<think>` トークン ID 12 で `</think>` トークン ID 13 で推論を行います。 `--special` を使うと llama.cpp のトークンを確認できます。必要に応じて `--verbose-prompt` を使って `<think>` 先頭に付加されているため表示してください。
{% endhint %}
{% endstep %}
{% endstepper %}

### 🦥 Nemotron 3 と RL のファインチューニング

Unsloth は現在、Nemotron 3 Super と Nano を含むすべての Nemotron モデルのファインチューニングをサポートしています。&#x20;

4B モデルは無料の Colab GPU に収まりますが、30B モデルは収まりません。それでも、ファインチューニング用に 80GB A100 Colab ノートブックを用意しました。Nemotron 3 Nano の 16-bit LoRA ファインチューニングでは約 **60GB の VRAM**:

* [Nemotron-3-Nano-30B-A3B SFT LoRA ノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Nemotron-3-Nano-30B-A3B_A100.ipynb>" %}

MoE のファインチューニングについては、ルーター層をファインチューニングするのはおそらく良い考えではないため、デフォルトで無効にしています。その推論能力を維持したい場合（任意）、直接回答と chain-of-thought の例を混ぜて使えます。少なくとも <mark style="background-color:green;">75% の推論</mark> および <mark style="background-color:green;">25% の非推論</mark> をデータセットに含めて、モデルの推論能力を保持させてください。

#### :sparkles:強化学習 + NeMo Gym

私たちはオープンソースの NVIDIA [NeMo Gym](https://github.com/NVIDIA-NeMo/Gym/pull/492) チームと協力し、RL 環境の民主化を可能にしました。私たちのコラボレーションにより、NeMo Gym のトレーニング環境とデータセットを使用して、数学、コーディング、ツール利用など、多くの関心分野に対する単一ターンのロールアウト RL トレーニングが可能になります:

{% columns %}
{% column %}
[NeMo Gym 数独 強化学習 ノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/nemo_gym_sudoku.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Sudoku.ipynb>" %}
{% endcolumn %}

{% column %}
[NeMo Gym 強化学習用マルチ環境ノートブック](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/NeMo-Gym-Multi-Environment.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**さらに、NVIDIA の公式 Developer ブログに掲載された最新のコラボガイドもご覧ください:**

#### [NVIDIA GPU で LLM をファインチューニングする方法 — Unsloth を使用](https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/)

{% endhint %}

{% embed url="<https://blogs.nvidia.com/blog/rtx-ai-garage-fine-tuning-unsloth-dgx-spark/>" %}

### 🦙Llama-server のサービングとデプロイ

Nemotron 3 を本番環境にデプロイするには、次を使用します `llama-server` を使用します。新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
    --model unsloth/Nemotron-3-Nano-30B-A3B-GGUF/Nemotron-3-Nano-30B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Nemotron-3-Nano-30B-A3B" \
    --prio 3 \\
    --min-p 0.01 \\
    --temp 0.6 \\
    --top-p 0.95 \
    --ctx-size 16384 \\
    --port 8001
```

{% endcode %}

上記を実行すると、次のようになります:

<figure><img src="/files/852e5dda4afa2d7bb59b142a7eec5f0332c55f9c" alt="" width="563"><figcaption></figcaption></figure>

次に新しいターミナルで、 `pip install openai`を実行した後、次を行います:

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Nemotron-3-Nano-30B-A3B",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

すると次を出力します

{% code overflow="wrap" %}

```
ユーザーは簡単な質問をします: 「What is 2+2?」答えは 4 です。回答を出してください。

2 + 2 = 4.
```

{% endcode %}

### ベンチマーク

Nemotron-3-Nano-4B は、スループットを含め、そのサイズに対して最も高性能なモデルです。

<figure><img src="/files/5844c2b4de7b6d0aaf5b0d3bfd14b31eb62dc739" alt="" width="375"><figcaption></figcaption></figure>

Nemotron-3-Nano-30B-A3B は、スループットを含むすべてのベンチマークで最も高性能なモデルです。

<figure><img src="/files/14413219b3975d227fdd18b1f6af3f88f0395ad2" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/nemotron-3.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
