🌠Qwen3-Next: ローカルで実行するガイド

Qwen3-Next-80B-A3B-Instruct と Thinking バージョンをローカルで実行しましょう！

Qwenは2025年9月にQwen3-Nextをリリースしました。これはThinkingモデルとInstructモデルのバリアントを持つ80BのMoEsです。 Qwen3。256Kコンテキストを備え、Qwen3-Nextは特に長いコンテキスト長での高速推論を最適化するために新しいアーキテクチャ（MoEsとGated DeltaNet + Gated Attentionのハイブリッド）で設計されました。Qwen3-NextはQwen3-32Bより10倍高速な推論を実現しています。

Qwen3-Next Instructを実行する Qwen3-Next Thinkingを実行する

Qwen3-Next-80B-A3B 動的GGUF： Instruct • Thinking

⚙️ 使用ガイド

2025年12月6日更新：Unsloth Qwen3-Nextはパフォーマンス向上のためにiMatrixで更新されました。

Thinkingモデルは次を使用します temperature = 0.6、しかしInstructモデルは次を使用します temperature = 0.7 Thinkingモデルは次を使用します top_p = 0.95、しかしInstructモデルは次を使用します top_p = 0.8

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

Instruct：

Thinking：

Temperature = 0.7

Temperature = 0.6

Min_P = 0.00 （llama.cppのデフォルトは0.1です）

Top_P = 0.80

Top_P = 0.95

TopK = 20

presence_penalty = 0.0 から 2.0 （llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます）

適切な出力長：出力長には 32,768 トークンを、Thinkingバリアントのほとんどのクエリには使用し、そして 16,384 はInstructバリアント用です。必要に応じてThinkingモデルの最大出力サイズを増やすことができます。

Thinking（thinkingには <think></think>）およびInstruct両方のチャットテンプレートは以下の通りです：

<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Qwen3-Nextチュートリアルを実行する

以下はモデルの Thinking と Instruct バージョンに関するガイドです。

Instruct: Qwen3-Next-80B-A3B-Instruct

これは非Thinkingモデルであるため、モデルは生成しません <think> </think> ブロックを。

⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

使用を推奨します temperature=0.7、top_p=0.8、top_k=20、および min_p=0.0 presence_penalty フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
temperature = 0.7
top_k = 20
min_p = 0.00 （llama.cppのデフォルトは0.1です）
top_p = 0.80
presence_penalty = 0.0 から 2.0 (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
最大でサポートします 262,144 コンテキストをネイティブに持ちますが、設定して 32,768 RAM使用量を減らすためのトークン

✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct チュートリアルを実行

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

HuggingFace から直接プルできます：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 UD_Q4_K_XL または他の量子化バージョン。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Instruct-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Instruct-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Thinking: Qwen3-Next-80B-A3B-Thinking

このモデルはネイティブで思考モードと256Kのコンテキストウィンドウのみをサポートします。デフォルトのチャットテンプレートは自動的に <think> を追加するため、出力には閉じる </think> タグのみが表示されることがあります。

⚙️ ベストプラクティス

最適なパフォーマンスを得るために、Qwenは以下の設定を推奨します：

使用を推奨します temperature=0.6、top_p=0.95、top_k=20、および min_p=0.0 presence_penalty フレームワークがサポートしている場合、無限の繰り返しを減らすために0〜2の間で。
temperature = 0.6
top_k = 20
min_p = 0.00 （llama.cppのデフォルトは0.1です）
top_p = 0.95
presence_penalty = 0.0 から 2.0 (llama.cpp のデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます) 例えば1.0を試してください。
最大でサポートします 262,144 コンテキストをネイティブに持ちますが、設定して 32,768 RAM使用量を減らすためのトークン

✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking チュートリアルを実行

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Hugging Face から直接プルできます：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 UD_Q4_K_XL または他の量子化バージョン。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-Next-80B-A3B-Thinking-GGUF",
    local_dir = "Qwen3-Next-80B-A3B-Thinking-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

🛠️ 生成速度の改善

より多くのVRAMがある場合、より多くのMoE層をオフロードするか、層全体をオフロードすることを試せます。

通常は、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします！これにより、非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が多い場合は、より多くの層に合わせて正規表現をカスタマイズできます。

もし少し多くのGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これは up と down の投影 MoE 層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" さらに多くのGPUメモリがある場合。これは up 投影の MoE 層のみをオフロードします。

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は gate、up、down の MoE 層をオフロードしますが、6層目以降に限定します。

最新の llama.cpp リリース高スループットモードも導入しています。使用するには llama-parallel。詳細はこちら。また、 KVキャッシュを4ビットに量子化することができます （例えばVRAM / RAMの移動を減らすため）、これにより生成プロセスが高速化されることもあります。次のセクションはKVキャッシュの量子化について説明します。

📐長いコンテキストに対応する方法

より長いコンテキストに対応するには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低ビットに量子化できます。これによりRAM / VRAMのデータ移動が減少し、生成速度が向上することもあります。Kの量子化で許容されるオプション（デフォルトは f16)には以下が含まれます。

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

多少精度が向上するので、 _1 バリアントを使用するべきですが、やや遅くなります。例えば q4_1, q5_1 なので試してみてください： --cache-type-k q4_1

Vキャッシュも量子化できますが、 Flash Attentionを使ってllama.cppをコンパイルする必要があります サポートを有効にするには -DGGML_CUDA_FA_ALL_QUANTS=ON、そして --flash-attn を使って有効にします。Flash Attentionをインストールした後、次を使うことができます： --cache-type-v q4_1

前へGLM-4.6 次へDeepSeek-V3.1

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtag📖 Qwen3-Nextチュートリアルを実行する

hashtagInstruct: Qwen3-Next-80B-A3B-Instruct

hashtag⚙️ ベストプラクティス

hashtag✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct チュートリアルを実行

hashtagThinking: Qwen3-Next-80B-A3B-Thinking

hashtag⚙️ ベストプラクティス

hashtag✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking チュートリアルを実行

hashtag🛠️ 生成速度の改善

hashtag📐長いコンテキストに対応する方法

⚙️ 使用ガイド

📖 Qwen3-Nextチュートリアルを実行する

Instruct: Qwen3-Next-80B-A3B-Instruct

⚙️ ベストプラクティス

✨ Llama.cpp: Qwen3-Next-80B-A3B-Instruct チュートリアルを実行

Thinking: Qwen3-Next-80B-A3B-Thinking

⚙️ ベストプラクティス

✨ Llama.cpp: Qwen3-Next-80B-A3B-Thinking チュートリアルを実行

🛠️ 生成速度の改善

📐長いコンテキストに対応する方法