> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-coder-how-to-run-locally.md).

# Qwen3-Coder: ローカルでの実行方法

Qwen3-Coder は Qwen の新しいコーディングエージェントモデル群で、30B（**Qwen3-Coder-Flash**）および 480B パラメータで利用可能です。 **Qwen3-480B-A35B-Instruct** は、Claude Sonnet-4、GPT-4.1、そして [Kimi K2](/docs/jp/moderu/tutorials/kimi-k2-thinking-how-to-run-locally.md)に匹敵するSOTAのコーディング性能を達成し、Aider Polygotで61.8%を記録し、256K（1Mまで拡張可能）のトークンコンテキストをサポートします。

また、Qwen3-Coder をネイティブな <mark style="background-color:purple;">**1M のコンテキスト長**</mark> で YaRN により拡張したものと、フル精度の 8bit および 16bit バージョンもアップロードしました。 [Unsloth](https://github.com/unslothai/unsloth) また、ファインチューニングと [RL](/docs/jp/meru/reinforcement-learning-rl-guide.md) もサポートするようになりました。

{% hint style="success" %}
[**更新:** Qwen3-Coder のツール呼び出しを修正しました！ ](#tool-calling-fixes)これで llama.cpp、Ollama、LMStudio、Open WebUI、Jan などでツール呼び出しをシームレスに使えるようになりました。この問題は普遍的で、（Unsloth だけでなく）すべてのアップロードに影響していました。修正内容について Qwen チームとも共有済みです！ [続きを読む](#tool-calling-fixes)
{% endhint %}

<a href="#run-qwen3-coder-30b-a3b-instruct" class="button primary">30B-A3B を実行</a><a href="#run-qwen3-coder-480b-a35b-instruct" class="button secondary">480B-A35B を実行</a>

{% hint style="success" %}
**「Unsloth Dynamic Quants」は** [**Unsloth Dynamic Quants**](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) **動作しますか？** はい、しかも非常に良好です。Aider Polyglot ベンチマークにおける第三者テストでは、 **UD-Q4\_K\_XL (276GB)** のダイナミック量子化は **フル bf16 (960GB)** の Qwen3-coder モデルとほぼ同等で、60.9% 対 61.8% という結果でした。 [詳細はこちら。](https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF/discussions/8)
{% endhint %}

#### **Qwen3 Coder - Unsloth Dynamic 2.0 GGUF**:

| Dynamic 2.0 GGUF（実行用）                                                                                                                                                                                                         | 1M コンテキスト Dynamic 2.0 GGUF                                                                                                                                                                                                          |
| ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| <ul><li><a href="https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF">30B-A3B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF">480B-A35B-Instruct</a></li></ul> | <ul><li><a href="https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-1M-GGUF">30B-A3B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-1M-GGUF">480B-A35B-Instruct</a></li></ul> |

## 🖥️ **Qwen3-Coder の実行**

以下に、モデルの [**30B-A3B**](#run-qwen3-coder-30b-a3b-instruct) および [**480B-A35B**](#run-qwen3-coder-480b-a35b-instruct) 各バリアント

### :gear: 推奨設定

のガイドを示します。

`temperature=0.7`, `top_p=0.8`, `top_k=20`, `repetition_penalty=1.05`

* <mark style="background-color:green;">**温度 0.7**</mark>
* Top\_K 20
* Min\_P 0.00（任意ですが、0.01 でもうまく動作します。llama.cpp のデフォルトは 0.1 です）
* Top\_P 0.8
* <mark style="background-color:green;">**繰り返しペナルティ 1.05**</mark>
* チャットテンプレート:

  ```
  <|im_start|>user
  やあ！<|im_end|>
  <|im_start|>assistant
  1+1 はいくつ？<|im_end|>
  <|im_start|>user
  2<|im_end|>
  <|im_start|>assistant
  ```
* 推奨コンテキスト出力: 65,536 トークン（増やすことも可能）。詳細はこちら。

**改行をレンダリングしないチャットテンプレート/プロンプト形式**

{% code overflow="wrap" %}

```
<|im_start|>user\nやあ！<|im_end|>\n<|im_start|>assistant\n1+1 はいくつ？<|im_end|>\n<|im_start|>user\n2<|im_end|>\n<|im_start|>assistant\n
```

{% endcode %}

<mark style="background-color:yellow;">**ツール呼び出し用チャットテンプレート**</mark> （サンフランシスコの現在の気温を取得）。ツール呼び出しの形式についての詳細はこちら。

```
<|im_start|>user
サンフランシスコの今の気温は？ 明日はどうですか？<|im_end|>
<|im_start|>assistant
<tool_call>\n<function=get_current_temperature>\n<parameter=location>\nSan Francisco, CA, USA
</parameter>\n</function>\n</tool_call><|im_end|>
<|im_start|>user
<tool_response>
{"temperature": 26.1, "location": "San Francisco, CA, USA", "unit": "celsius"}
</tool_response>\n<|im_end|>
```

{% hint style="info" %}
このモデルは非思考モードのみをサポートし、出力に `<think></think>` ブロックを生成しないことに注意してください。一方で、 `enable_thinking=False` を指定する必要はなくなりました。
{% endhint %}

### Qwen3-Coder-30B-A3B-Instruct を実行:

Dynamic 4-bit 量子化で 1 秒あたり 6 トークン以上の推論速度を達成するには、少なくとも **18GB のユニファイドメモリ** （VRAM と RAM の合計）または **18GB のシステム RAM** のみが必要です。目安として、利用可能なメモリは使用するモデルサイズと同等以上であるべきです。たとえば、32.5GB の UD\_Q8\_K\_XL 量子化（フル精度）では、最適な性能のために少なくとも **33GB のユニファイドメモリ** （VRAM + RAM）または **33GB の RAM** が必要になります。

**注:** モデルは総サイズより少ないメモリでも実行できますが、その場合は推論が遅くなります。最大速度を出すには十分なメモリが必要です。

これは非思考モデルなので、 `thinking=False` を設定する必要はなく、モデルは `<think> </think>` ブロックを生成しません。

{% hint style="info" %}
上記の [**ベストプラクティスに従ってください**](#recommended-settings)。480B モデルと同じです。
{% endhint %}

#### 🦙 Ollama: Qwen3-Coder-30B-A3B-Instruct 実行チュートリアル

1. インストール `ollama` まだならインストールしてください！ 実行できるのはサイズ 32B までのモデルです。

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. モデルを実行！ 失敗した場合は `ollama serve`別のターミナルで呼び出せます。修正内容と推奨パラメータ（temperature など）はすべて `params` に含めて Hugging Face にアップロードしています！

```bash
ollama run hf.co/unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp: Qwen3-Coder-30B-A3B-Instruct 実行チュートリアル

1. 最新の `llama.cpp` オン [GitHub はこちら](https://github.com/ggml-org/llama.cpp)で入手してください。以下のビルド手順に従っても構いません。変更してください `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` GPU がない場合、または CPU 推論だけを使いたい場合。 **Apple Mac / Metal デバイスの場合**、次のように設定し `-DGGML_CUDA=OFF` その後は通常どおり続けてください。Metal サポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. HuggingFace から直接取得するには、以下を使用できます:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF:Q4_K_XL \\
       --jinja -ngl 99 --ctx-size 32768 \\
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --repeat-penalty 1.05
   ```
3. （をインストール後に）モデルをダウンロードします。 `pip install huggingface_hub hf_transfer` UD\_Q4\_K\_XL または他の量子化版を選べます。ダウンロードが止まる場合は [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF",
    local_dir = "unsloth/Qwen3-Coder-30B-A3B-Instruct-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Qwen3-Coder-480B-A35B-Instruct を実行:

1-bit 量子化で 1 秒あたり 6 トークン以上の推論速度を達成するには、少なくとも **150GB のユニファイドメモリ** （VRAM と RAM の合計）または **150GB のシステム RAM** のみを推奨します。目安として、利用可能なメモリは使用するモデルサイズと同等以上であるべきです。たとえば、180GB の Q2\_K\_XL 量子化では少なくとも **180GB のユニファイドメモリ** （VRAM + RAM）または **180GB の RAM** が必要になります。

**注:** モデルは総サイズより少ないメモリでも実行できますが、その場合は推論が遅くなります。最大速度を出すには十分なメモリが必要です。

{% hint style="info" %}
上記の [**ベストプラクティスに従ってください**](#recommended-settings)が必要です。30B モデルと同じです。
{% endhint %}

#### 📖 Llama.cpp: Qwen3-Coder-480B-A35B-Instruct 実行チュートリアル

Coder-480B-A35B では、最適化された推論と豊富なオプションのために、特に Llama.cpp を使用します。

{% hint style="success" %}
もし **フル精度の非量子化版**が欲しいなら、 `Q8_K_XL、Q8_0` または `BF16` 版を使ってください！
{% endhint %}

1. 最新の `llama.cpp` オン [GitHub はこちら](https://github.com/ggml-org/llama.cpp)で入手してください。以下のビルド手順に従っても構いません。変更してください `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` GPU がない場合、または CPU 推論だけを使いたい場合。

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. モデルのダウンロードには直接 llama.cpp を使えますが、通常は `huggingface_hub` の使用をおすすめします。llama.cpp を直接使うには、以下を実行します:

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF:Q2_K_XL \\
       --ctx-size 16384 \\
       --n-gpu-layers 99 \
       -ot ".ffn_.*_exps.=CPU" \\
       --temp 0.7 \\
       --min-p 0.0 \\
       --top-p 0.8 \\
       --top-k 20 \\
       --repeat-penalty 1.05
   ```
3. または、（をインストール後に）モデルをダウンロードします。 `pip install huggingface_hub hf_transfer` UD-Q2\_K\_XL または他の量子化版を選べます。

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # レート制限されることがあるので、0 にして無効化
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF",
       local_dir = "unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*"],
   )
   ```
4. 会話モードでモデルを実行し、任意のプロンプトを試してください。
5. 編集 `--threads -1` CPU スレッド数について、 `--ctx-size` コンテキスト長 262114 用、 `--n-gpu-layers 99` GPU オフロードする層数について。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合はこれも削除してください。

{% hint style="success" %}
を使って `-ot ".ffn_.*_exps.=CPU"` を使うと、すべての MoE 層を CPU にオフロードできます。これにより、非 MoE 層を 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がもっとある場合は、より多くの層に合わせて正規表現をカスタマイズできます。その他のオプションは [こちら](#improving-generation-speed).
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-Coder-480B-A35B-Instruct-UD-Q2_K_XL-00001-of-00004.gguf \\
    --ctx-size 16384 \\
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \\
    --temp 0.7 \\
    --min-p 0.0 \\
    --top-p 0.8 \\
    --top-k 20 \\
    --repeat-penalty 1.05
```

{% endcode %}

{% hint style="success" %}
新しい Qwen3 アップデートも忘れないでください。 [**Qwen3-235B-A22B-Instruct-2507**](/docs/jp/moderu/tutorials/qwen3-next.md) を llama.cpp でローカル実行しましょう。
{% endhint %}

#### :tools: 生成速度の改善

VRAM がもっとあるなら、より多くの MoE 層をオフロードするか、層全体をオフロードしてみてください。

通常は、 `-ot ".ffn_.*_exps.=CPU"` すべての MoE 層を CPU にオフロードします。これにより、非 MoE 層を 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がもっとある場合は、より多くの層に合わせて正規表現をカスタマイズできます。

GPU メモリが少し多いなら、 `-ot ".ffn_(up|down)_exps.=CPU"` を試してください。

さらに GPU メモリがあるなら、 `-ot ".ffn_(up)_exps.=CPU"` を試してください。これにより up projection の MoE 層のみをオフロードします。

正規表現をカスタマイズすることもできます。たとえば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は、6層目以降の gate、up、down の MoE 層をオフロードすることを意味します。

この [最新の llama.cpp リリース](https://github.com/ggml-org/llama.cpp/pull/14363) では高スループットモードも導入されています。 `llama-parallel`を使ってください。詳細はこちら [こちら](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel)。また、 **KV キャッシュを 4bit に量子化する** ことで、VRAM / RAM のやり取りを減らし、生成処理を高速化することもできます。

#### :triangular\_ruler:長いコンテキストを収める方法（256K〜1M）

より長いコンテキストを収めるには、 <mark style="background-color:green;">**KV キャッシュ量子化**</mark> を使って K と V のキャッシュをより低いビットに量子化できます。これにより RAM / VRAM のデータ移動が減り、生成速度も向上します。K 量子化で許可されるオプション（デフォルトは `f16`）は以下のとおりです。

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

やや精度を上げるには `_1` 版を使うべきです。少し遅くなりますが。たとえば `q4_1, q5_1`

V キャッシュも量子化できますが、その場合は <mark style="background-color:yellow;">**Flash Attention 対応で llama.cpp をコンパイルする**</mark> 必要があり、 `-DGGML_CUDA_FA_ALL_QUANTS=ON`、そして `--flash-attn` で有効化します。

YaRN スケーリングを通じて、100万コンテキスト長の GGUF もアップロードしました [こちら](https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-1M-GGUF).

## :toolbox: ツール呼び出しの修正

ツール呼び出しを `llama.cpp --jinja` 経由で修正することに成功しました。特に `llama-server`の配信向けです！ 30B-A3B の量子化版をダウンロードしている場合は、すでに修正が含まれているので心配いりません。480B-A35B モデルについては、次の手順を行ってください:

1. UD-Q2\_K\_XL 用に <https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF/tree/main/UD-Q2\\_K\\_XL> から最初のファイルをダウンロードし、現在のファイルを置き換えてください
2. を使って `snapshot_download` 通常どおり <https://docs.unsloth.ai/basics/qwen3-coder-how-to-run-locally#llama.cpp-run-qwen3-tutorial> の手順で行うと、古いファイルが自動的に上書きされます
3. 新しいチャットテンプレートを `--chat-template-file`で使用してください。 [GGUF チャットテンプレート](https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF?chat_template=default) または [chat\_template.jinja](https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct/raw/main/chat_template.jinja)
4. おまけとして、1つの 150GB UD-IQ1\_M ファイル（Ollama が動作するように）も <https://huggingface.co/unsloth/Qwen3-Coder-480B-A35B-Instruct-GGUF/blob/main/Qwen3-Coder-480B-A35B-Instruct-UD-IQ1\\_M.gguf> に作成しました

これで次のような問題が解決するはずです: <https://github.com/ggml-org/llama.cpp/issues/14915>

### ツール呼び出しの使用

ツール呼び出し用のプロンプトの形式を示すために、例で説明します。

私は次の名前の Python 関数を作成しました `get_current_temperature` これは、ある場所の現在の気温を取得する関数です。今のところ、常に 21.6 度（摂氏）を返すプレースホルダー関数を作成しています。これを本物の関数に変更してください！！

{% code overflow="wrap" %}

```python
def get_current_temperature(location: str, unit: str = "celsius"):
    """ある場所の現在の気温を取得する。

    引数:
        location: 気温を取得する場所。形式は「City, State, Country」。
        unit: 気温の単位。デフォルトは「celsius」。(選択肢: ["celsius", "fahrenheit"])

    戻り値:
        温度、場所、単位を含む dict
    """
    return {
        "temperature": 26.1, # 事前設定済み -> ここを変更してください！
        "location": location,
        "unit": unit,
    }
```

{% endcode %}

次に、トークナイザーを使ってプロンプト全体を作成します:

{% code overflow="wrap" %}

```python
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("unsloth/Qwen3-Coder-480B-A35B-Instruct")

messages = [
    {'role': 'user', 'content': "サンフランシスコの今の気温は？ 明日はどうですか？"},
    {'content': "", 'role': 'assistant', 'function_call': None, 'tool_calls': [
        {'id': 'ID', 'function': {'arguments': {"location": "San Francisco, CA, USA"}, 'name': 'get_current_temperature'}, 'type': 'function'},
    ]},
    {'role': 'tool', 'content': '{"temperature": 26.1, "location": "San Francisco, CA, USA", "unit": "celsius"}', 'tool_call_id': 'ID'},
]

prompt = tokenizer.apply_chat_template(messages, tokenize = False)
```

{% endcode %}

## :bulb:性能ベンチマーク

{% hint style="info" %}
これらの公式ベンチマークはフル BF16 チェックポイントのものです。これを使うには、単純に `Q8_K_XL, Q8_0, BF16` としてアップロードしたチェックポイントを使ってください。これらの版でも MoE オフロードなどの工夫は引き続き使えます！
{% endhint %}

480B モデルのベンチマークは以下のとおりです:

#### エージェント的コーディング

<table data-full-width="true"><thead><tr><th>ベンチマーク</th><th>Qwen3‑Coder 480B‑A35B‑Instruct</th><th>Kimi‑K2</th><th>DeepSeek‑V3-0324</th><th>Claude 4 Sonnet</th><th>GPT‑4.1</th></tr></thead><tbody><tr><td>Terminal‑Bench</td><td><strong>37.5</strong></td><td>30.0</td><td>2.5</td><td>35.5</td><td>25.3</td></tr><tr><td>SWE‑bench Verified w/ OpenHands (500 turns)</td><td><strong>69.6</strong></td><td>–</td><td>–</td><td>70.4</td><td>–</td></tr><tr><td>SWE‑bench Verified w/ OpenHands (100 turns)</td><td><strong>67.0</strong></td><td>65.4</td><td>38.8</td><td>68.0</td><td>48.6</td></tr><tr><td>SWE‑bench Verified w/ Private Scaffolding</td><td>–</td><td>65.8</td><td>–</td><td>72.7</td><td>63.8</td></tr><tr><td>SWE‑bench Live</td><td><strong>26.3</strong></td><td>22.3</td><td>13.0</td><td>27.7</td><td>–</td></tr><tr><td>SWE‑bench Multilingual</td><td><strong>54.7</strong></td><td>47.3</td><td>13.0</td><td>53.3</td><td>31.5</td></tr><tr><td>Multi‑SWE‑bench mini</td><td><strong>25.8</strong></td><td>19.8</td><td>7.5</td><td>24.8</td><td>–</td></tr><tr><td>Multi‑SWE‑bench flash</td><td><strong>27.0</strong></td><td>20.7</td><td>–</td><td>25.0</td><td>–</td></tr><tr><td>Aider‑Polyglot</td><td><strong>61.8</strong></td><td>60.0</td><td>56.9</td><td>56.4</td><td>52.4</td></tr><tr><td>Spider2</td><td><strong>31.1</strong></td><td>25.2</td><td>12.8</td><td>31.1</td><td>16.5</td></tr></tbody></table>

#### エージェント的ブラウザ使用

<table data-full-width="true"><thead><tr><th>ベンチマーク</th><th>Qwen3‑Coder 480B‑A35B‑Instruct</th><th>Kimi‑K2</th><th>DeepSeek‑V3 0324</th><th>Claude Sonnet‑4</th><th>GPT‑4.1</th></tr></thead><tbody><tr><td>WebArena</td><td><strong>49.9</strong></td><td>47.4</td><td>40.0</td><td>51.1</td><td>44.3</td></tr><tr><td>Mind2Web</td><td><strong>55.8</strong></td><td>42.7</td><td>36.0</td><td>47.4</td><td>49.6</td></tr></tbody></table>

#### エージェント的ツール使用

<table data-full-width="true"><thead><tr><th>ベンチマーク</th><th>Qwen3‑Coder 480B‑A35B‑Instruct</th><th>Kimi‑K2</th><th>DeepSeek‑V3 0324</th><th>Claude Sonnet‑4</th><th>GPT‑4.1</th></tr></thead><tbody><tr><td>BFCL‑v3</td><td><strong>68.7</strong></td><td>65.2</td><td>56.9</td><td>73.3</td><td>62.9</td></tr><tr><td>TAU‑Bench Retail</td><td><strong>77.5</strong></td><td>70.7</td><td>59.1</td><td>80.5</td><td>–</td></tr><tr><td>TAU‑Bench Airline</td><td><strong>60.0</strong></td><td>53.5</td><td>40.0</td><td>60.0</td><td>–</td></tr></tbody></table>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-coder-how-to-run-locally.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
