🌠Qwen3-Next:ローカル実行ガイド

Qwen3-Next-80B-A3B-Instruct および Thinking バージョンをローカルで実行しましょう!

Qwenは2025年9月にQwen3-Nextをリリースしました。これはThinkingとInstructのモデルバリアントを備えた80BのMoEsです、 Qwen3。256Kのコンテキストを持つQwen3-Nextは、新しいアーキテクチャ(MoEsとGated DeltaNet + Gated Attentionのハイブリッド)で設計されており、特に長いコンテキスト長での高速推論を最適化しています。Qwen3-NextはQwen3-32Bより推論が10倍速いです。

Qwen3-Next Instructを実行するQwen3-Next Thinkingを実行する

Qwen3-Next-80B-A3B ダイナミックGGUF: 指示(Instruct)arrow-up-right思考(Thinking)arrow-up-right

⚙️ 使用ガイド

circle-check

最適な性能を得るために、Qwenは以下の設定を推奨します:

Instruct:
Thinking:

Temperature = 0.7

Temperature = 0.6

Min_P = 0.00 (llama.cppのデフォルトは0.1です)

Min_P = 0.00 (llama.cppのデフォルトは0.1です)

Top_P = 0.80

Top_P = 0.95

TopK = 20

TopK = 20

presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます)

presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になっていますが、繰り返しを減らすためにこれを使用できます)

十分な出力長:Thinkingバリアントではほとんどのクエリに対して出力長を 32,768 トークン使用し、 16,384 Instructバリアントでは。必要に応じてThinkingモデルの最大出力サイズを増やすことができます。

Thinking(thinkingにはがあり <think></think>)とInstructの両方のチャットテンプレートは以下です:

<|im_start|>user
やあ!<|im_end|>
<|im_start|>assistant
1+1は何ですか?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Qwen3-Nextチュートリアルを実行する

以下はモデルの 思考(Thinking) および 指示(Instruct) バージョンに関するガイドです。

Instruct:Qwen3-Next-80B-A3B-Instruct

これはThinkingでないモデルであるため、モデルはを生成しません <think> </think> ブロック。

⚙️ベストプラクティス

最適なパフォーマンスを得るために、Qwenは次の設定を推奨します:

  • 私たちは次の使用を推奨します temperature=0.7、top_p=0.8、top_k=20、およびmin_p=0.0 presence_penalty フレームワークが対応している場合、終わりのない繰り返しを減らすために0から2の間で使用してください。

  • temperature = 0.7

  • top_k = 20

  • min_p = 0.00 (llama.cppのデフォルトは0.1です)

  • top_p = 0.80

  • presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になりますが、繰り返しを減らすために使用できます) 例えば1.0を試してください。

  • ネイティブで最大 262,144 のコンテキストをサポートしますが、RAM使用量を減らすために 32,768 トークンに設定することができます

Llama.cpp:Qwen3-Next-80B-A3B-Instructチュートリアルを実行する

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. HuggingFace から直接プルできます:

  2. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD_Q4_K_XL や他のもの。

Thinking:Qwen3-Next-80B-A3B-Thinking

このモデルはThinkingモードと256Kのコンテキストウィンドウのみをネイティブにサポートします。デフォルトのチャットテンプレートはを自動的に追加するため、出力に閉じタグのみが表示されることがあります。 <think> を自動的に追加するため、出力に閉じ </think> タグが表示されることがあります。

⚙️ベストプラクティス

最適なパフォーマンスを得るために、Qwenは次の設定を推奨します:

  • 私たちは次の使用を推奨します temperature=0.6、top_p=0.95、top_k=20、およびmin_p=0.0 presence_penalty フレームワークが対応している場合、終わりのない繰り返しを減らすために0から2の間で使用してください。

  • temperature = 0.6

  • top_k = 20

  • min_p = 0.00 (llama.cppのデフォルトは0.1です)

  • top_p = 0.95

  • presence_penalty = 0.0 から 2.0 (llama.cppのデフォルトでは無効になりますが、繰り返しを減らすために使用できます) 例えば1.0を試してください。

  • ネイティブで最大 262,144 のコンテキストをサポートしますが、RAM使用量を減らすために 32,768 トークンに設定することができます

Llama.cpp:Qwen3-Next-80B-A3B-Thinkingチュートリアルを実行する

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. Hugging Faceから直接プルできます:

  2. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD_Q4_K_XL や他のもの。

🛠️ 生成速度の向上

もしVRAMがより多くある場合は、さらに多くのMoE層をオフロードするか、層全体をオフロードすることを試すことができます。

通常、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします!これにより非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。

もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。

試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。

正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。

その 最新のllama.cppリリースはarrow-up-right 高スループットモードも導入します。使用すると、 llama-parallelです。詳細は ここarrow-up-rightを参照してください。さらに、 KVキャッシュを4ビットに量子化することもできます 例えばVRAM / RAMの移動を減らし、生成プロセスをより高速にすることができます。次の セクション はKVキャッシュの量子化について説明します。

📐長いコンテキストに適合させる方法

より長いコンテキストを収めるには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低いビットに量子化できます。これによりRAM/VRAMのデータ移動が減り、生成速度が向上することがあります。K量子化の許容オプション(デフォルトは f16)には以下が含まれます。

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

若干精度が向上するために _1 変種を使用するべきですが、わずかに遅くなります。例えば q4_1, q5_1 それで、次を試してください --cache-type-k q4_1

Vキャッシュも量子化できますが、その場合は llama.cppをFlash Attentionサポートでコンパイルする必要があります には次を使用してください -DGGML_CUDA_FA_ALL_QUANTS=ON、そして次を使用して --flash-attn で有効にします。Flash Attentionをインストールした後、次に --cache-type-v q4_1

最終更新

役に立ちましたか?