# Qwen3-Next: ローカル実行ガイド

Qwenは2025年9月にQwen3-Nextをリリースしました。これは、ThinkingおよびInstructモデルのバリアントを持つ80B MoEで、 [Qwen3](/docs/jp/moderu/tutorials/qwen3-how-to-run-and-fine-tune.md)です。256Kのコンテキストを備え、Qwen3-Nextはまったく新しいアーキテクチャ（MoEとGated DeltaNet + Gated Attentionのハイブリッド）で設計されており、特に長いコンテキスト長での高速推論に最適化されています。Qwen3-NextはQwen3-32Bより10倍高速に推論できます。

<a href="/pages/b2a04bf177dc4438c58a13a8bff973ff4b9d1cf8#run-qwen3-next-tutorials" class="button secondary">Qwen3-Next Instruct を実行</a><a href="/pages/b2a04bf177dc4438c58a13a8bff973ff4b9d1cf8#thinking-qwen3-next-80b-a3b-thinking" class="button secondary">Qwen3-Next Thinking を実行</a>

Qwen3-Next-80B-A3B Dynamic GGUF: [**Instruct**](https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF) **•** [**Thinking**](https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF)

### ⚙️ 使用ガイド

{% hint style="success" %}
2025年12月6日時点の新情報: Unsloth Qwen3-Next が iMatrix 対応で更新され、性能が向上しました。

thinkingモデルは `temperature = 0.6`を使用しますが、instructモデルは `temperature = 0.7`\
thinkingモデルは `top_p = 0.95`を使用しますが、instructモデルは `top_p = 0.8`
{% endhint %}

を使用します。最適な性能を得るために、Qwenは以下の設定を推奨しています:

| Instruct:                                                                 | Thinking:                                                                 |
| ------------------------------------------------------------------------- | ------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperature = 0.7`</mark>           | <mark style="background-color:blue;">`Temperature = 0.6`</mark>           |
| `Min_P = 0.00` (llama.cppのデフォルトは0.1です)                                    | `Min_P = 0.00` (llama.cppのデフォルトは0.1です)                                    |
| `Top_P = 0.80`                                                            | `Top_P = 0.95`                                                            |
| `TopK = 20`                                                               | `TopK = 20`                                                               |
| `presence_penalty = 0.0 から 2.0` (llama.cppのデフォルトでは無効ですが、反復を減らすためにこれを使えます) | `presence_penalty = 0.0 から 2.0` (llama.cppのデフォルトでは無効ですが、反復を減らすためにこれを使えます) |

**適切な出力長**: 出力長を `32,768` トークンに設定してください。thinkingバリアントの多くのクエリでは、 `16,384` instructバリアントではこれを使用します。必要に応じて、thinkingモデルの最大出力サイズを増やせます。

両方のThinking用チャットテンプレート（thinkingには `<think></think>`があります）とInstruct用は以下のとおりです:

```
<|im_start|>user
やあ！<|im_end|>
<|im_start|>assistant
1+1は？<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Qwen3-Nextチュートリアルを実行

以下は [Thinking](#thinking-qwen3-next-80b-a3b-thinking) および [Instruct](#instruct-qwen3-next-80b-a3b-instruct) モデルのバージョンに関するガイドです。

### Instruct: Qwen3-Next-80B-A3B-Instruct

これは非thinkingモデルであるため、モデルは `<think> </think>` ブロックを生成しません。

#### ⚙️ベストプラクティス

最適な性能を得るために、Qwenは以下の設定を推奨しています:

* 次の使用を推奨します `temperature=0.7, top_p=0.8, top_k=20, min_p=0.0` `presence_penalty` を0から2の間に設定します。フレームワークが対応している場合、延々と繰り返すのを減らすためです。
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` (llama.cppのデフォルトは0.1です)
* **`top_p = 0.80`**
* `presence_penalty = 0.0 から 2.0` (llama.cppのデフォルトでは無効ですが、反復を減らすためにこれを使えます) たとえば1.0を試してください。
* 最大 `262,144` のコンテキストをネイティブにサポートしますが、 `32,768` トークンに設定するとRAM使用量を減らせます

#### :sparkles: Llama.cpp: Qwen3-Next-80B-A3B-Instruct チュートリアルを実行

1. 最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)から取得してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 **Apple Mac / Metal デバイスの場合**、次を設定して `-DGGML_CUDA=OFF` その後は通常どおり続けてください - Metal サポートは既定で有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. HuggingFace から次の方法で直接取得できます:

   ```bash
   ./llama.cpp/llama-cli \\
       -hf unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF:Q4_K_XL \\
       --jinja -ngl 99 --ctx-size 32768 \\
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. モデルのダウンロード（ `pip install huggingface_hub hf_transfer` のインストール後）。 `UD_Q4_K_XL` または他の量子化版を選べます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Instruct-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking: Qwen3-Next-80B-A3B-Thinking

このモデルはthinkingモードと256Kのコンテキストウィンドウのみをネイティブにサポートします。デフォルトのチャットテンプレートは `<think>` を自動的に追加するため、出力には閉じの `</think>` タグだけが表示されることがあります。

#### ⚙️ベストプラクティス

最適な性能を得るために、Qwenは以下の設定を推奨しています:

* 次の使用を推奨します `temperature=0.6, top_p=0.95, top_k=20, min_p=0.0` `presence_penalty` を0から2の間に設定します。フレームワークが対応している場合、延々と繰り返すのを減らすためです。
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (llama.cppのデフォルトは0.1です)
* **`top_p = 0.95`**
* `presence_penalty = 0.0 から 2.0` (llama.cppのデフォルトでは無効ですが、反復を減らすためにこれを使えます) たとえば1.0を試してください。
* 最大 `262,144` のコンテキストをネイティブにサポートしますが、 `32,768` トークンに設定するとRAM使用量を減らせます

#### :sparkles: Llama.cpp: Qwen3-Next-80B-A3B-Thinking チュートリアルを実行

1. 最新の `llama.cpp` を [GitHub こちら](https://github.com/ggml-org/llama.cpp)から取得してください。以下のビルド手順に従うこともできます。 `-DGGML_CUDA=ON` を `-DGGML_CUDA=OFF` に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Hugging Faceから直接次の方法で取得できます:

   ```bash
   ./llama.cpp/llama-cli \\
       -hf unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF:Q4_K_XL \\
       --jinja -ngl 99 --ctx-size 32768 \\
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. モデルのダウンロード（ `pip install huggingface_hub hf_transfer` のインストール後）。 `UD_Q4_K_XL` または他の量子化版を選べます。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Thinking-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### 🛠️ 生成速度の改善 <a href="#improving-generation-speed" id="improving-generation-speed"></a>

VRAM がさらにある場合は、より多くの MoE レイヤーをオフロードするか、レイヤー全体をオフロードすることができます。

通常、 `-ot ".ffn_.*_exps.=CPU"` すべての MoE レイヤーを CPU にオフロードします！これにより、非 MoE レイヤーを 1 枚の GPU に収められるようになり、生成速度が向上します。GPU 容量がさらにある場合は、正規表現を調整してより多くのレイヤーを収めることができます。

GPU メモリがもう少し多い場合は、試してみてください `-ot ".ffn_(up|down)_exps.=CPU"` これにより、アップ投影とダウン投影の MoE レイヤーがオフロードされます。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` GPU メモリがさらに多い場合は、これを使ってください。これにより、アップ投影の MoE レイヤーのみがオフロードされます。

これは最も少ない VRAM を使用します。 `正規表現をカスタマイズすることもできます。例えば` -ot "\\.(6|7|8|9|\[0-9]\[0-9]|\[0-9]\[0-9]\[0-9])\\.ffn\_(gate|up|down)\_exps.=CPU"

最新の [llama.cppリリース](https://github.com/ggml-org/llama.cpp/pull/14363) では高スループットモードも導入されています。 `llama-parallel`。詳細は [こちら](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel)。また **KV キャッシュを 4bit に量子化することもできます** を使うと、VRAM / RAM間の移動を減らせるため、生成処理も高速化できます。次の [セクション](#how-to-fit-long-context-256k-to-1m) ではKVキャッシュ量子化について説明します。

### 📐長いコンテキストを収める方法 <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

より長いコンテキストを収めるには、 **KV キャッシュ量子化** を使って K と V のキャッシュをより低いビットに量子化できます。これにより、RAM / VRAM のデータ移動が減るため、生成速度も向上します。K の量子化で許可されるオプション（デフォルトは `f16`）は以下を含みます。

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

多少の精度向上のために `_1` 版を使うべきですが、少し遅くなります。例： `q4_1, q5_1` なので `--cache-type-k q4_1`

V キャッシュも量子化できますが、 **Flash Attention サポート付きで llama.cpp をコンパイルする必要があります** を `-DGGML_CUDA_FA_ALL_QUANTS=ON`で有効化し、 `--flash-attn` を試して有効化してください。Flash Attentionをインストールした後は、次を使用できます `--cache-type-v q4_1`

<figure><img src="/files/660ad1e8074c7fda524859db13f0518677d570b2" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-next.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
