# Qwen3.6 - ローカル実行方法

Qwen3.6はAlibabaの新しいマルチモーダル・ハイブリッド思考モデル群で、以下を含みます： **Qwen3.6-27B** と **35B-A3B**。サイズに対して最高クラスの性能を発揮し、201言語で256Kコンテキストをサポートします。エージェント的コーディング、画像認識、チャットタスクに優れています。Qwen3.6-27Bは **18GB RAM** 構成で動作し、35B-A3Bは **22GB**で動作します。今すぐモデルを [Unsloth Studio](#unsloth-studio-guide).

{% hint style="success" %}
**NEW:** [**Qwen3.6 MTP が登場**](#mtp-guide)**！MTPにより、精度を落とさずに1.4〜2倍高速な推論が可能です**

私たちは [Qwen3.6 GGUFベンチマーク](#unsloth-gguf-benchmarks) を実施し、最適な量子化を選ぶ手助けをします。
{% endhint %}

<a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#qwen3.6-inference-tutorials" class="button primary">Qwen3.6チュートリアルを実行</a><a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#mtp-guide" class="button primary">MTPガイド</a>

{% columns %}
{% column %}
Qwen3.6 GGUFはUnslothの [Dynamic 2.0](/docs/jp/ji-ben/unsloth-dynamic-2.0-ggufs.md) を使用して、SOTAレベルの量子化性能を実現します。つまり、量子化は実際のユースケースデータセットで較正され、重要な層は上位精度に変換されます。 *初日からのアクセスを提供してくれたQwenに感謝します。*

* **Developerロールのサポート** Codex、OpenCodeなど向け：\
  私たちのアップロードは今後 `developer role` をエージェント的コーディングツール向けにサポートします。
* **ツール呼び出し：** たとえば [Qwen3.5](/docs/jp/moderu/qwen3.5.md)のように、ネストされたオブジェクトの解析を改善して、ツール呼び出しの成功率を高めました。
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/aefe9115149da8c8069575f294893ffc6e2b9d80" alt=""><figcaption><p>Qwen3.6を <a href="#unsloth-studio-guide">Unsloth Studio</a>.</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

### :gear: 使用ガイド

**表：推論に必要なハードウェア** （単位 = 合計メモリ：RAM + VRAM、またはユニファイドメモリ）

<table><thead><tr><th>Qwen3.6</th><th>3-bit</th><th>4-bit</th><th width="128">6-bit</th><th>8-bit</th><th>BF16</th></tr></thead><tbody><tr><td><strong>27B</strong></td><td>15 GB</td><td>18 GB</td><td>24 GB</td><td>30 GB</td><td>55 GB</td></tr><tr><td><strong>35B-A3B</strong></td><td>17 GB</td><td>23 GB</td><td>30 GB</td><td>38 GB</td><td>70 GB</td></tr></tbody></table>

{% hint style="success" %}
最良の性能を得るには、利用可能な合計メモリ（VRAM + システムRAM）が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。上回っていない場合でも、llama.cppはSSD/HDDオフロードで実行できますが、推論は遅くなります。
{% endhint %}

{% hint style="warning" %}
CUDA 13.2は使用しないでください。文字化けした出力が出る可能性があります。NVIDIAが修正版を作業中です。
{% endhint %}

**Qwen3.6の学習には、以前の** [**Qwen3.5ファインチューニングガイド**](/docs/jp/moderu/qwen3.5/fine-tune.md)**.**

### 推奨設定

* **最大コンテキストウィンドウ：** `262,144` （YaRNで1Mまで拡張可能）
* `presence_penalty = 0.0 から 2.0` デフォルトではオフですが、繰り返しを減らすために使用できます。ただし、値を大きくすると **性能がわずかに低下する場合があります**
* **適切な出力長**: `32,768` ほとんどのクエリでのトークン数

{% hint style="info" %}
文字化けする場合、コンテキスト長が短すぎる可能性があります。あるいは、次を試してください。 `--cache-type-k bf16 --cache-type-v bf16` これが役立つ場合があります。
{% endhint %}

Qwen3.6はハイブリッド推論であるため、思考モードと非思考モードでは設定が異なります：

#### 思考モード：

{% hint style="success" %}
Qwen3.6には現在 [Preserve Thinking](#turn-on-off-thinking--preserve-thinking).
{% endhint %}

| 一般タスク                        | 精密なコーディングタスク（例：WebDev）       |
| ---------------------------- | ---------------------------- |
| temperature = 1.0            | temperature = 0.6            |
| top\_p = 0.95                | top\_p = 0.95                |
| top\_k = 20                  | top\_k = 20                  |
| min\_p = 0.0                 | min\_p = 0.0                 |
| presence\_penalty = 1.5      | presence\_penalty = 0.0      |
| repeat\_penalty = 無効 または 1.0 | repeat\_penalty = 無効 または 1.0 |

{% columns %}
{% column %}
一般タスク向けの思考モード：

{% code overflow="wrap" %}

```bash
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}

{% column %}
精密なコーディングタスク向けの思考モード：

{% code overflow="wrap" %}

```bash
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

#### Instruct（非思考）モードの設定：

| 一般タスク                        | 推論タスク                        |
| ---------------------------- | ---------------------------- |
| temperature = 0.7            | temperature = 1.0            |
| top\_p = 0.8                 | top\_p = 0.95                |
| top\_k = 20                  | top\_k = 20                  |
| min\_p = 0.0                 | min\_p = 0.0                 |
| presence\_penalty = 1.5      | presence\_penalty = 1.5      |
| repeat\_penalty = 無効 または 1.0 | repeat\_penalty = 無効 または 1.0 |

{% hint style="warning" %}
思考を [無効化するには](#how-to-enable-or-disable-reasoning-and-thinking)、次を使用します `--chat-template-kwargs '{"enable_thinking":false}'`

もし **Windows** Powershellなら、次を使用してください： `--chat-template-kwargs "{\"enable_thinking\":false}"`

'true' と 'false' は同じ意味で使えます。
{% endhint %}

{% columns %}
{% column %}
一般タスク向けのInstruct（非思考）モード：

{% code overflow="wrap" %}

```bash
temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}

{% column %}
推論タスク向けのInstruct（非思考）モード：

{% code overflow="wrap" %}

```bash
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## Qwen3.6推論チュートリアル：

今回は Dynamic 4-bit を使用します `UD_Q4_K_XL` 推論ワークロード向けのGGUFバリアントです。以下をクリックして、対象モデルの手順に移動してください：

{% hint style="warning" %}
CUDA 13.2は使用しないでください。文字化けした出力が出る可能性があります。NVIDIAが修正版を作業中です。
{% endhint %}

<a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#mtp-guide" class="button primary">MTPガイド</a><a href="/pages/0af04e20683a2825742edd360e0a15913f42c5a8#unsloth-studio-guide" class="button primary">Unsloth Studioで実行</a><a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#llama.cpp-guides" class="button secondary">llama.cppで実行</a>

{% hint style="info" %}
`presence_penalty = 0.0 から 2.0` デフォルトではオフですが、繰り返しを減らすために使用できます。ただし、値を大きくすると **性能がわずかに低下します。**

現時点では、mmprojのvisionファイルが別になっているため、Qwen3.6 GGUFはOllamaでは動作しません。llama.cpp互換のバックエンドを使用してください。
{% endhint %}

### ⚡ MTPガイド

MTP（Multi Token Prediction） speculative decoding により、Qwen3.6のようなモデルは **約1.4〜2倍高速な生成を&#x20;**<mark style="background-color:$success;">**精度の変化なしで**</mark>実現できます。これにより、Qwen3.6 27Bと35B-A3Bは **1.4倍超の高速化を** 元のベースラインに対して達成でき、特にローカルモデルで有用です。

**Qwen3.6 27Bは現在140 tokens/s、Qwen3.6 35B-A3Bは220 tokens/sで生成できます！** 詳細は [#mtp-benchmarks](#mtp-benchmarks "mention") こちら

| [Qwen3.6-27B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-27B-MTP-GGUF) | [Qwen3.6-35B-A3B-MTP-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MTP-GGUF) |
| --------------------------------------------------------------------------- | ----------------------------------------------------------------------------------- |

<div data-with-frame="true"><figure><img src="/files/2b510d8f9b32072ab44d8ee50e7c9f0895d61c89" alt=""><figcaption></figcaption></figure></div>

実際には、MTPは将来の複数トークンを予測し、メインモデルがそれらのトークンを並列で検証します。これにより、生成中に必要な順伝播回数が減り、出力が高速化します。私たちは `--spec-draft-n-max 2` が最もよく動作することを確認しました！

{% stepper %}
{% step %}
インストールしてください **特定の** `llama.cpp` PRブランチを [**GitHubはこちら**](https://github.com/ggml-org/llama.cpp/pull/22673)。以下のビルド手順に従っても構いません。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPUがない場合、またはCPU推論だけを使いたい場合です。 **Apple Mac / Metal デバイスでは**、次を設定し `-DGGML_CUDA=OFF` その後は通常どおり続けてください。Metalサポートはデフォルトで有効です。

```bash
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone -b mtp-clean https://github.com/am17an/llama.cpp.git
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` を直接使ってモデルを読み込みたい場合は、以下を実行できます：(:`Q4_K_XL`）は量子化タイプです。Hugging Face（ポイント3）からもダウンロードできます。これは `ollama run` に似ています。次を使用してください `export LLAMA_CACHE="folder"` を使って `llama.cpp` 特定の場所に保存させることができます。モデルの最大コンテキスト長は256Kです。

対象モデルごとのコマンドのいずれかに従ってください：

<a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#mtp-qwen3.6-27b" class="button primary">27B MTP</a><a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#mtp-qwen3.6-35b-a3b" class="button primary">35-A3B MTP</a>

#### MTP Qwen3.6-27B：

**思考モード：**

{% hint style="info" %}
Qwen3.6の新しい [Preserved Thinking](#thinking-enable-disable--preserve-thinking).
{% endhint %}

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00 \
    --spec-type mtp --spec-draft-n-max 2
```

精密なコーディングタスクでは、次を変更します： `temperature=0.6, presence-penalty=0.0`

**非思考モード：**

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-MTP-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q4_K_XL \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00 \
    --spec-type mtp --spec-draft-n-max 2 \
    --chat-template-kwargs '{"enable_thinking":false}'
```

推論タスクでは、次を変更します： `temperature=1.0, top-p=0.95`

#### MTP Qwen3.6-35B-A3B：

**思考モード：**

{% hint style="info" %}
Qwen3.6の新しい [Preserved Thinking](#thinking-enable-disable--preserve-thinking).
{% endhint %}

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00 \
    --spec-type mtp --spec-draft-n-max 2
```

精密なコーディングタスクでは、次を変更します： `temperature=0.6, presence-penalty=0.0`

**非思考モード：**

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-MTP-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.6-35B-A3B-MTP-GGUF:UD-Q4_K_XL \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00 \
    --spec-type mtp --spec-draft-n-max 2 \
    --chat-template-kwargs '{"enable_thinking":false}'
```

推論タスクでは、次を変更します： `temperature=1.0, top-p=0.95`
{% endstep %}

{% step %}
以下のコードでモデルをダウンロードします（インストール後に `pip install huggingface_hub hf_transfer`）。Q4\_K\_M や、次のような他の量子化版も選べます `UD-Q4_K_XL` 。サイズと精度のバランスのため、少なくとも2-bit dynamic quantの使用を推奨します `UD-Q2_K_XL` 。ダウンロードが止まる場合は、こちらを参照してください： [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.6-35B-A3B-MTP-GGUF \
    --local-dir unsloth/Qwen3.6-35B-A3B-MTP-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します：

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3.6-35B-A3B-MTP-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.6-35B-A3B-MTP-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --presence-penalty 1.5 \
    --top-k 20
```

{% endcode %}
{% endstep %}
{% endstepper %}

### 🦥 Unsloth Studioガイド

Qwen3.6は [Unsloth Studio](/docs/jp/xin-zhe/studio.md)で実行・ファインチューニングできます。これはローカルAI向けの新しいオープンソースWeb UIです。Unsloth Studioでは、 **MacOS、Windows**、Linux上でモデルをローカル実行でき、さらに：

{% columns %}
{% column %}

* 検索、ダウンロード、 [GGUFの実行](/docs/jp/xin-zhe/studio.md#run-models-locally) およびsafetensorモデル
* [**自己修復** ツール呼び出し](/docs/jp/xin-zhe/studio.md#execute-code--heal-tool-calling) + **Web検索**
* [**コード実行**](/docs/jp/xin-zhe/studio.md#run-models-locally) （Python、Bash）
* [自動推論](/docs/jp/xin-zhe/studio.md#model-arena) パラメータ調整（temp、top-pなど）
* llama.cpp経由の高速なCPU + GPU推論
* [LLMを学習](/docs/jp/xin-zhe/studio.md#no-code-training) VRAM 70%削減で2倍高速
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/2c86177fef09b636c736623bc2c2908ac9873309" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unslothをインストール

ターミナルで実行：

**MacOS、Linux、WSL：**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell：**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="success" %}
**インストールはすぐに完了し、約20秒〜1分ほどかかります。**
{% endhint %}
{% endstep %}

{% step %}

#### Unslothを起動

**MacOS、Linux、WSL、Windows：**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/698ae7636b7c9b8a8122c6fbdabc1bd2273fdb2c" alt="" width="375"><figcaption></figcaption></figure></div>

その後、ブラウザで `http://127.0.0.1:8888` （または指定のURL）を開いてください。
{% endstep %}

{% step %}

#### Qwen3.6を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。

次に [Studio Chat](/docs/jp/xin-zhe/studio/chat.md) タブに移動し、検索バーでQwen3.6を検索して、必要なモデルと量子化をダウンロードしてください。

<div data-with-frame="true"><figure><img src="/files/6c4204f32f4f7345f45f031004057c2e0d798d91" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Qwen3.6を実行

Unsloth Studioを使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、 [Unsloth Studio推論ガイド](/docs/jp/xin-zhe/studio/chat.md)をご覧ください。以下では、2-bit Qwen3.6 GGUFが30回以上のツール呼び出し、20サイトの検索、Pythonコードの実行を行いました：

{% embed url="<https://cdn-uploads.huggingface.co/production/uploads/62ecdc18b72a69615d6bd857/9lqVQm1qDX3elt6Uan5Vm.mp4>" %}
{% endstep %}
{% endstepper %}

### 🦙 Llama.cppガイド

このガイドでは、Dynamic 4-bit を使用します。これは24GB RAM / Macデバイスで高速推論に非常に適しています。 [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp)。モデルはF16フル精度でも約72GBしかないため、性能についてあまり心配する必要はありません。 [GGUFコレクションを見る](https://huggingface.co/collections/unsloth/qwen36).

<a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#qwen3.6-27b" class="button primary">27B</a><a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#qwen3.6-35b-a3b" class="button primary">35-A3B</a>

{% stepper %}
{% step %}
最新のものを入手 `llama.cpp` **で** [**GitHubはこちら**](https://github.com/ggml-org/llama.cpp)。以下のビルド手順に従っても構いません。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPUがない場合、またはCPU推論だけを使いたい場合です。 **Apple Mac / Metal デバイスでは**、次を設定し `-DGGML_CUDA=OFF` その後は通常どおり続けてください。Metalサポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
もし `llama.cpp` を直接使ってモデルを読み込みたい場合は、以下を実行できます：(:`Q4_K_XL`）は量子化タイプです。Hugging Face（ポイント3）からもダウンロードできます。これは `ollama run` に似ています。次を使用してください `export LLAMA_CACHE="folder"` を使って `llama.cpp` 特定の場所に保存させることができます。モデルの最大コンテキスト長は256Kです。

対象モデルごとのコマンドのいずれかに従ってください：

<a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#qwen3.5-27b" class="button primary">27B</a><a href="/pages/b1345d93eb2f70a681e5a0bf731e28a576f0f428#qwen3.5-35b-a3b" class="button primary">35-A3B</a>

#### Qwen3.6-27B：

**思考モード：**

{% hint style="info" %}
Qwen3.6の新しい [Preserved Thinking](#thinking-enable-disable--preserve-thinking).
{% endhint %}

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00
```

精密なコーディングタスクでは、次を変更します： `temperature=0.6, presence-penalty=0.0`

**非思考モード：**

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.6-27B-GGUF:UD-Q4_K_XL \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'
```

推論タスクでは、次を変更します： `temperature=1.0, top-p=0.95`

#### Qwen3.6-35B-A3B：

**思考モード：**

{% hint style="info" %}
Qwen3.6の新しい [Preserved Thinking](#thinking-enable-disable--preserve-thinking).
{% endhint %}

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00
```

精密なコーディングタスクでは、次を変更します： `temperature=0.6, presence-penalty=0.0`

**非思考モード：**

一般タスク：

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --presence-penalty 1.5 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'
```

推論タスクでは、次を変更します： `temperature=1.0, top-p=0.95`
{% endstep %}

{% step %}
以下のコードでモデルをダウンロードします（インストール後に `pip install huggingface_hub hf_transfer`）。Q4\_K\_M や、次のような他の量子化版も選べます `UD-Q4_K_XL` 。サイズと精度のバランスのため、少なくとも2-bit dynamic quantの使用を推奨します `UD-Q2_K_XL` 。ダウンロードが止まる場合は、こちらを参照してください： [Hugging Face Hub、XETデバッグ](/docs/jp/ji-ben/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Qwen3.6-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.6-35B-A3B-GGUF \
    --include "*mmproj-F16*" \
    --include "*UD-Q4_K_XL*" # Dynamic 2bit には "*UD-Q2_K_XL*" を使用
```

{% endstep %}

{% step %}
その後、会話モードでモデルを実行します：

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --presence-penalty 1.5 \
    --top-k 20
```

{% endcode %}
{% endstep %}
{% endstepper %}

#### Llama-server と OpenAI completion ライブラリ

Qwen3.6を本番環境にデプロイするには、 `llama-server` を使用します。新しいターミナル、たとえば tmux 経由で、次の方法でモデルをデプロイします：

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \
--model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.6-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001
```

{% endcode %}

その後、新しいターミナルで、 `pip install openai`を実行した後に、次を実行します：

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.6-35B-A3B",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

### 🍎 MLX Dynamic Quants

MacOSデバイス向けに、動的なQwen3.6 4bitと8bitの量子化モデルもアップロードしました！私たちのMLX量子化アルゴリズムはまだ進化中で、改善できる箇所は積極的に洗練しています。

**Qwen3.6-27B MLX：**

| [3-bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit) | [4-bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit) | [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | [6-bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit) | [8-bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit) |
| --------------------------------------------------------------- | --------------------------------------------------------------- | ---------------------------------------------------------------- | ---------------------------------------------------------------- | --------------------------------------------------------------- | ------------------------------------------------------------ |

**Qwen3.6-35B-A3B MLX：**

| [3-bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-3bit) | [4-bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-UD-MLX-4bit) | [8-bit](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-MLX-8bit) |
| ------------------------------------------------------------------- | ------------------------------------------------------------------- | ---------------------------------------------------------------- |

試すには次を使用します：

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_qwen3_6_mlx.sh | sh
source ~/.unsloth/unsloth_qwen3_6_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/Qwen3.6-27B-UD-MLX-4bit
```

{% endcode %}

Qwen3.6-27BのKL Divergence（KLD）とPerplexity（PPL）のスコアは以下をご覧ください（低いほど良い）：

| モデル                                                              | 平均KLD  | 中央値KLD | PPL   | P90 KLD | P99.9 KLD | サイズ     |
| ---------------------------------------------------------------- | ------ | ------ | ----- | ------- | --------- | ------- |
| [8-bit](https://huggingface.co/unsloth/Qwen3.6-27B-MLX-8bit)     | 0.0028 | 0.0003 | 4.812 | 0.0019  | 0.192     | 34.7 GB |
| [6-bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-6bit)  | 0.0037 | 0.0007 | 4.809 | 0.0032  | 0.343     | 30.5 GB |
| [4-bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-4bit)  | 0.0227 | 0.0053 | 4.821 | 0.0293  | 2.339     | 26.2 GB |
| [NVFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-NVFP4) | 0.0325 | 0.0087 | 4.843 | 0.0466  | 3.693     | 26.2 GB |
| [MXFP4](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-MXFP4) | 0.0479 | 0.0153 | 4.902 | 0.0769  | 4.035     | 25.6 GB |
| [3-bit](https://huggingface.co/unsloth/Qwen3.6-27B-UD-MLX-3bit)  | 0.0734 | 0.0223 | 4.976 | 0.1261  | 5.529     | 24.1 GB |

### 💡 思考：有効化/無効化 + Preserve Thinking

Qwen3.6にはさらに **Preserve Thinking** があり、前回の会話の思考痕跡を残します。これにより使用トークン数は増えますが、継続会話での精度が向上する可能性があります。Unsloth StudioにはQwen3.6向けの 'Think' と Preserved Thinking のトグルがあります：

<div data-with-frame="true"><figure><img src="/files/2c86177fef09b636c736623bc2c2908ac9873309" alt="" width="563"><figcaption><p>Unsloth StudioにはデフォルトでThinkトグルがあり、新しい <a href="#preserved-thinking">Preserved Thinking</a> トグル</p></figcaption></figure></div>

があります **preserve thinking** をllama.cppで有効にするには（'true' または 'false' に変更）、次の '`preseve_thinking`' を '`enable_thinking`' または '`disable_thinking`'.

{% code expandable="true" %}

```bash
--chat-template-kwargs '{"preserve_thinking":true}'
```

{% endcode %}

通常の思考では、以下のコマンドに従ってllama.cppで思考の有効化/無効化を行えます。'`true`' と '`false`' は同じ意味で使えます。&#x20;

<table data-full-width="false"><thead><tr><th width="197.76666259765625">llama-server OS：</th><th>思考を有効化</th><th>思考を無効化</th></tr></thead><tbody><tr><td>Linux、MacOS、WSL：</td><td><pre data-overflow="wrap"><code>--chat-template-kwargs '{"enable_thinking":true}'
</code></pre></td><td><pre data-overflow="wrap"><code>--chat-template-kwargs '{"enable_thinking":false}'
</code></pre></td></tr><tr><td>Windows / Powershell：</td><td><pre data-overflow="wrap"><code>--chat-template-kwargs "{\"enable_thinking\":true}"
</code></pre></td><td><pre data-overflow="wrap"><code>--chat-template-kwargs "{\"enable_thinking\":false}"
</code></pre></td></tr></tbody></table>

例として、Qwen3.6-35B-A3Bでpreserve thinkingを有効にする場合（デフォルトでは有効）：

```bash
./llama.cpp/llama-server \
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-BF16.gguf \
    --alias "unsloth/Qwen3.6-35B-A3B-GGUF" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --chat-template-kwargs '{"preserve_thinking":true}'
```

そしてPythonでは：

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.6-35B-A3B-GGUF",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)
```

### 👨‍💻 OpenAI Codex & Claude Code <a href="#claude-codex" id="claude-codex"></a>

ローカルのコーディング用エージェントワークロード経由でモデルを実行するには、 [こちらのガイドに従ってください](/docs/jp/ji-ben/claude-code.md)。モデル名を 'Qwen3.6' の該当バリアントに変更し、正しいQwen3.6のパラメータと使用手順に従ってください。 `llama-server` 先ほど設定した

{% columns %}
{% column %}
{% content-ref url="/pages/ee610b22aa43d29d8415fd27eb7de15ba88f7385" %}
[Claude Code](/docs/jp/ji-ben/claude-code.md)
{% endcontent-ref %}
{% endcolumn %}

{% column %}
{% content-ref url="/pages/c87896ff7159620f4c01bb39fe9df1fd1a55274e" %}
[OpenAI Codex](/docs/jp/ji-ben/codex.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}

Claude Codeの手順に従うと、たとえば次のように表示されます：

<div data-with-frame="true"><figure><img src="/files/ac5ba4dbc7b649aceacab8fa5ec1e8616642acf6" alt="" width="563"><figcaption></figcaption></figure></div>

その後、たとえば次を指示できます `チェス用のPythonゲームを作成して` :

<div><figure><img src="/files/ad665850d5315c4be5a608351515356ff59d082b" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/e66b5d09d577fb36f0dc6f8e34d987a9ae0dbbaf" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/03a03b0c279f2ea141b94abfad9dec6275485ba1" alt="" width="563"><figcaption></figcaption></figure></div>

## 📊 ベンチマーク

### Unsloth GGUFベンチマーク

最適な量子化を選べるように、プロバイダをまたいでQwen3.6-35-A3B GGUFの平均KL Divergenceベンチマークを実施しました。

* KL Divergenceにより、ほぼすべてのUnsloth GGUFがSOTAのParetoフロンティア上に位置します
* KLDは、量子化モデルが元のBF16出力分布にどれだけ一致しているかを示し、保持された精度を示します。
* これにより、22サイズ中21でUnslothが最高性能となっています
* より多くのDynamic層のためにQ6\_Kのみ更新され、新しい `UD-IQ4_NL_XL` quant

<div data-with-frame="true"><figure><img src="/files/4c08db77b028c47fb00e50cef262107be104ee6c" alt=""><figcaption><p>35B-A3B - KLDベンチマーク（低いほど良い）</p></figcaption></figure></div>

### MTPベンチマーク

27Bと35B MoE向けに作成した新しい量子化モデルをベンチマークしました。一般に、密モデルはMoEモデル（1.15〜1.25倍）よりも、MTPで大幅に高速化されます（1.4〜2倍）。

これにより、Qwen3.6 27BはUD-Q2\_K\_XLで140 tokens/s、Qwen3.6 35B-A3Bは220 tokens/sの生成が可能になりました！スループット値の一部はノイズがあるため、ある量子化が他より遅いと解釈しないでください。

<figure><img src="/files/0be40c03eed7eba6a93166c2930703af56a05dc1" alt=""><figcaption></figcaption></figure>

平均的な高速化では、draft tokens = 2で密モデルは1.4倍、MoEではおよそ1.15〜1.2倍です。

<figure><img src="/files/9ad74ac0817971a8d639515bbe05713c590a910c" alt=""><figcaption></figcaption></figure>

4 draft tokensでは受理率が83%から50%へ急落し、MTPの順伝播があまり有利でなくなるため、2 draft tokensを超えることは推奨しません。

<figure><img src="/files/f405e08baa16d30163fa4b56f824461d0d58a16a" alt=""><figcaption></figcaption></figure>

### 公式Qwenベンチマーク

#### Qwen3.6-27B

<div data-with-frame="true"><figure><img src="/files/ae8cf9759eda9c2bf4a7855b693e4094d1cfc401" alt=""><figcaption></figcaption></figure></div>

#### Qwen3.6-35B-A3B

<div data-with-frame="true"><figure><img src="/files/a243f47e131f6935101027836cee3daef8054df9" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/qwen3.6.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
