# Qwen3-Next: ローカル実行ガイド

Qwenは2025年9月にQwen3-Nextをリリースしました。これはThinkingモデルとInstructモデルのバリアントを持つ80BのMoEsです。 [Qwen3](https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-how-to-run-and-fine-tune)。256Kコンテキストを備え、Qwen3-Nextは特に長いコンテキスト長での高速推論を最適化するために新しいアーキテクチャ（MoEsとGated DeltaNet + Gated Attentionのハイブリッド）で設計されました。Qwen3-NextはQwen3-32Bより10倍高速な推論を実現しています。

<a href="#run-qwen3-next-tutorials" class="button secondary">Qwen3-Next Instructを実行する</a><a href="#thinking-qwen3-next-80b-a3b-thinking" class="button secondary">Qwen3-Next Thinkingを実行する</a>

Qwen3-Next-80B-A3B 動的GGUF： [**Instruct**](https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF) **•** [**Thinking**](https://huggingface.co/unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF)

### ⚙️ 使用ガイド

{% hint style="success" %}
2025年12月6日更新：Unsloth Qwen3-Nextはパフォーマンス向上のためにiMatrixで更新されました。

Thinkingモデルは次を使用します `temperature = 0.6`、しかしInstructモデルは次を使用します `temperature = 0.7`\
Thinkingモデルは次を使用します `top_p = 0.95`、しかしInstructモデルは次を使用します `top_p = 0.8`
{% endhint %}

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

| Instruct：                                                                          | Thinking：                                                                          |
| ---------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------- |
| <mark style="background-color:blue;">`Temperature = 0.7`</mark>                    | <mark style="background-color:blue;">`Temperature = 0.6`</mark>                    |
| `Min_P = 0.00` （llama.cppのデフォルトは0.1です）                                             | `Min_P = 0.00` （llama.cppのデフォルトは0.1です）                                             |
| `Top_P = 0.80`                                                                     | `Top_P = 0.95`                                                                     |
| `TopK = 20`                                                                        | `TopK = 20`                                                                        |
| `presence_penalty = 0.0 から 2.0` （llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます） | `presence_penalty = 0.0 から 2.0` （llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます） |

**適切な出力長**： 出力長には `32,768` トークンを、Thinkingバリアントのほとんどのクエリには使用し、そして `16,384` はInstructバリアント用です。必要に応じてThinkingモデルの最大出力サイズを増やすことができます。

Thinking（thinkingには `<think></think>`）およびInstruct両方のチャットテンプレートは以下の通りです：

```
<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Qwen3-Nextチュートリアルを実行する

以下はモデルの [Thinking](#thinking-qwen3-next-80b-a3b-thinking) と [Instruct](#instruct-qwen3-next-80b-a3b-instruct) バージョンに関するガイドです。

### Instruct: Qwen3-Next-80B-A3B-Instruct

これは非Thinkingモデルであるため、モデルは生成しません `<think> </think>` ブロックを。

#### ⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

* 使用を推奨します `temperature=0.7、top_p=0.8、top_k=20、および min_p=0.0` `presence_penalty` フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` （llama.cppのデフォルトは0.1です）
* **`top_p = 0.80`**
* `presence_penalty = 0.0 から 2.0` (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
* 最大でサポートします `262,144` コンテキストをネイティブに持ちますが、設定して `32,768` RAM使用量を減らすためのトークン

#### :sparkles: Llama.cpp: Qwen3-Next-80B-A3B-Instruct チュートリアルを実行

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は **Apple Mac / Metalデバイスの場合**、次を設定してください `-DGGML_CUDA=OFF` その後通常通り続行してください — Metalサポートはデフォルトで有効です。

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. HuggingFace から直接プルできます：

   ```bash
   export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
       -hf unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` を選択できます。 `UD_Q4_K_XL` または他の量子化バージョン。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Instruct-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking: Qwen3-Next-80B-A3B-Thinking

このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に `<think>` を追加するため、出力には閉じる `</think>` タグのみが表示されることがあります。

#### ⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

* 使用を推奨します `temperature=0.6、top_p=0.95、top_k=20、および min_p=0.0` `presence_penalty` フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` （llama.cppのデフォルトは0.1です）
* **`top_p = 0.95`**
* `presence_penalty = 0.0 から 2.0` (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
* 最大でサポートします `262,144` コンテキストをネイティブに持ちますが、設定して `32,768` RAM使用量を減らすためのトークン

#### :sparkles: Llama.cpp: Qwen3-Next-80B-A3B-Thinking チュートリアルを実行

1. 最新の `llama.cpp` を [GitHubで入手してください](https://github.com/ggml-org/llama.cpp)。以下のビルド手順にも従うことができます。を変更してください `-DGGML_CUDA=ON` に `-DGGML_CUDA=OFF` GPUを持っていない場合やCPUで推論したい場合は

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Hugging Face から直接プルできます：

   ```bash
   export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
       -hf unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. モデルをダウンロードするには（をインストールした後） `モデルをダウンロードするには（` を選択できます。 `UD_Q4_K_XL` または他の量子化バージョン。

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Thinking-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### 🛠️ 生成速度の改善 <a href="#improving-generation-speed" id="improving-generation-speed"></a>

より多くのVRAMがある場合、より多くのMoE層をオフロードするか、層全体をオフロードすることを試せます。

通常は、 `-ot ".ffn_.*_exps.=CPU"` はすべてのMoE層をCPUにオフロードします！これにより、非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が多い場合は、より多くの層に合わせて正規表現をカスタマイズできます。

もし少し多くのGPUメモリがあるなら、次を試してください `-ot ".ffn_(up|down)_exps.=CPU"` これは up と down の投影 MoE 層をオフロードします。

試してみてください `-ot ".ffn_(up)_exps.=CPU"` さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

正規表現をカスタマイズすることもできます。例えば `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。

最新の [llama.cpp リリース](https://github.com/ggml-org/llama.cpp/pull/14363) 高スループットモードも導入しています。使用するには `llama-parallel`。詳細は [こちら](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel)。また、 **KVキャッシュを4ビットに量子化することができます** （例えばVRAM / RAMの移動を減らすため）、これにより生成プロセスが高速化されることもあります。 [次のセクション](#how-to-fit-long-context-256k-to-1m) はKVキャッシュの量子化について説明します。

### 📐長いコンテキストに対応する方法 <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

より長いコンテキストに対応するには、 **KVキャッシュの量子化** を使用してKおよびVキャッシュをより低ビットに量子化できます。これによりRAM / VRAMのデータ移動が減少し、生成速度が向上することもあります。Kの量子化で許容されるオプション（デフォルトは `f16`)には以下が含まれます。

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

多少精度が向上するので、 `_1` バリアントを使用するべきですが、やや遅くなります。例えば `q4_1, q5_1` なので試してみてください： `--cache-type-k q4_1`

Vキャッシュも量子化できますが、 **Flash Attentionを使ってllama.cppをコンパイルする必要があります** サポートを有効にするには `-DGGML_CUDA_FA_ALL_QUANTS=ON`、そして `--flash-attn` を使って有効にします。Flash Attentionをインストールした後、次を使うことができます： `--cache-type-v q4_1`

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-be34c101c627020c7a6cfb6cd249f2462587d235%2Fqwen33%20mascot.png?alt=media" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/moderu/tutorials/qwen3-next.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
