🌠Qwen3-Coder-Next:ローカルでの実行方法
Qwen3-Coder-Next をローカルデバイスで実行するためのガイド!
Qwenは80B MoEモデル(アクティブパラメータ3B)のQwen3-Coder-Nextをリリースしました、これにより 256Kコンテキスト 高速なエージェント型コーディングとローカルでの使用が可能になります。アクティブパラメータが10〜20倍多いモデルと同等の性能です。
で動作します、 46GBのRAM/VRAM/統一メモリ(8ビットで85GB)で動作し、超高速のコード応答のために非推論モードです。モデルは長期的な推論、複雑なツール使用、実行失敗からの回復に優れています。
2月4日更新: llama.cpp の計算を修正するバグを修正しました、 ベクトル化された key_gdiff。 これにより以前のループや出力の問題が修正されます。GGUFを更新しましたので、どうぞ 再ダウンロード および 更新 llama.cpp より良い出力のために。
また、CodexおよびClaude Codeでモデルを実行する方法も学べます。ファインチューニングの場合、 微調整(ファインチューニング)の場合、Qwen3-Next-CoderはUnslothでbf16 LoRAを行うために単一のB200 GPUに収まります。
Qwen3-Coder-Next Unsloth ダイナミックGGUF 実行するには: unsloth/Qwen3-Coder-Next-GGUF
GGUF実行チュートリアルCodex & Claude CodeFP8 vLLMチュートリアル
⚙️ 使用ガイド
46GBのRAMや統一メモリがない?心配いりません。3ビットなどの小さい量子化モデルを実行できます。モデルサイズは計算資源の合計と等しいのが最良です( ディスク容量 + RAM + VRAM ≥ 量子化サイズ)。 量子化モデルがデバイス上に完全に収まる場合、20トークン/秒以上を期待できます。収まらない場合でもオフロードで動作しますが遅くなります。
最適な性能を得るために、Qwenは以下の設定を推奨します:
Temperature = 1.0Top_P = 0.95Top_K = 40Min_P = 0.01(llama.cppのデフォルトは0.05)リピートペナルティ= 無効または1.0
ネイティブで最大 262,144 のコンテキストをサポートしますが、RAM使用量を減らすために 32,768 メモリ使用を減らすためのトークン。
🖥️ Qwen3-Coder-Nextを実行する
ユースケースに応じて異なる設定が必要です。このガイドは4ビットを使用しているため、約46GBのRAM/統一メモリが必要です。最高のパフォーマンスには少なくとも3ビット精度を推奨します。
2月4日更新: llama.cpp の計算を修正するバグを修正しました、 ベクトル化された key_gdiff。 これにより以前のループや出力の問題が修正されます。GGUFを更新しましたので、どうぞ 再ダウンロード および 更新 llama.cpp より良い出力のために。
注意:このモデルは非思考モードのみをサポートしており、出力に <think></think> ブロックを生成しません。したがって指定することはできません enable_thinking=False もはや必要ありません。
Llama.cpp チュートリアル(GGUF):
llama.cppでの実行手順(ほとんどのデバイスに収めるために4ビットを使用します):
最新の llama.cpp を GitHub で入手できます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。
Hugging Faceから直接取得できます。RAM/VRAMが許せばコンテキストを256Kに増やせます。使用すると、 --fit on はコンテキスト長を自動決定します。
推奨パラメータを使用できます: temperature=1.0, top_p=0.95, top_k=40
(以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub)。量子化バージョンとして選べます UD-Q4_K_XL や他のもの。
次にモデルを会話モードで実行します:
また、必要に応じて コンテキストウィンドウ 必要に応じて、最大まで 262,144
注意:このモデルは非思考モードのみをサポートしており、出力に <think></think> ブロックを生成しません。したがって指定することはできません enable_thinking=False もはや必要ありません。
🦙Llama-serverのサービング&デプロイメント
Qwen3-Coder-Nextを本番展開するには、を使用します llama-server 新しいターミナルで例えば tmux を使ってください。そして、モデルを以下でデプロイします:
その後、新しいターミナルで、次を実行した後に: pip install openai、モデルを実行できます:
これが出力されます:
4. **ハイスコア:** ブラウザのLocalStorageを使用して、ページを更新しても最高スコアを記憶します。

5. **レスポンシブな操作:** **Spaceバー**、**マウスクリック**、**タッチ**(モバイル向け)で動作します。
6. **グラフィックス:** 鳥はコードで描かれており(目やくちばし含む)、パイプには枠線があるため画像リンク切れは発生しません。 HTMLを抽出して実行したところ、生成されたFlappy Birdの例は正常に動作しました!👾 OpenAI Codex & Claude CodeGLM-4.7-Flashモデルをローカルのエージェント型コーディングワークロードで実行するには、 llama-server ガイドに従ってください、
モデル名 '

' を 'Qwen3-Coder-Next' に変更し、Qwen3-Coder-Nextの正しいパラメータと使用手順に従ってください。先ほど設定した を使用します。 :



もし次のように表示されたら Claude Codeの指示に従った例では、次のようになります: 次に例えば以下のように要求できます、 📐長いコンテキストに適合させる方法

チェスのPythonゲームを作成して
APIエラー: 400 {"error":{"code":400,"message":"リクエスト(16582トークン)が利用可能なコンテキストサイズ(16384トークン)を超えています。増加を試みてください","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} これはコンテキスト長を増やす必要があるか、を参照する必要があることを意味します 🎱 vLLMのFP8 Qwen3-Coder-Next 新しい FP8 ダイナミック量子化 nvidia-smi をプレミアムかつ高速な推論のためにモデルに使用できます。まずnightlyからvLLMをインストールします。を変更してください、 --extra-index-url https://wheels.vllm.ai/nightly/cu130 および お使いのCUDAバージョンは次で確認できます、 - のみ
# 新しいPython環境を作成します - システム全体を変更したくない場合は不要です uv venv unsloth_fp8 --python 3.12 --seed source unsloth_fp8/bin/activate --kv-cache-dtype fp8 次にサーブします、 UnslothのダイナミックFP8バージョン そして、次を設定します のモデルを。FP8を有効にするとKVキャッシュのメモリ使用量を約50%削減できます。を追加してください 私たちは4 GPUでサーブしましたが、1 GPUしかない場合は、次を使用してください、 tmux CUDA_VISIBLE_DEVICES='0' --tensor-parallel-size 1 またはこの引数を削除してください。下記を新しいターミナルで起動してからCTRL+B+Dを使い、戻るには
--tensor-parallel-size 4 \ Qwen3-Coder-Next --tool-call-parser qwen3_coder \

🔧以下のような表示が出るはずです。使い方については、を参照してください、
新しいターミナルで、2つの数を足す、Pythonコードを実行する、Linux関数を実行するなどのツールを作成します:
次に以下の関数を使用します(コピー&ペーストして実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:
以下では、多くのユースケースに対するツールコーリングの実行方法を複数の方法で紹介します:
生成された Python コードを実行する

任意のターミナル関数を実行する
ファイルが作成されたことを確認しました、そして実際に作成されました!

詳細については Tool Calling Guide vLLMやllama-serverでのOpenAI APIとツールコールを使ったQwen3-Coder-Nextの実際の使用方法。
🛠️ 生成速度の向上
Qwen3-Coder-Nextでのツールコール Qwen3-Coder-Next
もしVRAMがより多くある場合は、さらに多くのMoE層をオフロードするか、層全体をオフロードすることを試すことができます。
通常、 -ot ".ffn_.*_exps.=CPU" はすべてのMoE層をCPUにオフロードします!これにより非MoE層を1つのGPUに収めることができ、生成速度が向上します。GPU容量が大きい場合は正規表現をカスタマイズしてより多くの層を適合させることができます。
もしもう少しGPUメモリがあるなら、次を試してください -ot ".ffn_(up|down)_exps.=CPU" これはupおよびdownの投影MoE層をオフロードします。
試してみてください -ot ".ffn_(up)_exps.=CPU" もしさらに多くのGPUメモリがある場合。これはup投影MoE層のみをオフロードします。
正規表現をカスタマイズすることもできます。例えば -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" は6層目以降のgate、up、downのMoE層をオフロードすることを意味します。
その 最新のllama.cppリリースは 高スループットモードも導入します。使用すると、 llama-parallelです。詳細は ここを参照してください。さらに、 KVキャッシュを4ビットに量子化することもできます 例えばVRAM / RAMの移動を減らし、生成プロセスをより高速にすることができます。次の セクション はKVキャッシュの量子化について説明します。
📐長いコンテキストに適合させる方法
より長いコンテキストを収めるには、 KVキャッシュの量子化 を使用してKおよびVキャッシュをより低いビットに量子化できます。これによりRAM/VRAMのデータ移動が減り、生成速度が向上することがあります。K量子化の許容オプション(デフォルトは f16)には以下が含まれます。
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
若干精度が向上するために _1 変種を使用するべきですが、わずかに遅くなります。例えば q4_1, q5_1 それで、次を試してください --cache-type-k q4_1
Vキャッシュも量子化できますが、その場合は llama.cppをFlash Attentionサポートでコンパイルする必要があります には次を使用してください -DGGML_CUDA_FA_ALL_QUANTS=ON、そして次を使用して --flash-attn で有効にします。Flash Attentionをインストールした後、次に --cache-type-v q4_1
ツールコールのより多くの例については、を参照してください。 Qwen3-Coder-NextvLLM / SGLangを使用している場合は、スループットを25%以上向上させることがあるFP8-Dynamic量子化を試してください!参照: --kv-cache-dtype fp8
📐ベンチマーク
ダイナミックFP8量子化を使用している場合、
GLM-4.7(358B)
70.6
70.2
74.2
74.8
MiniMax M2.1(229B)
62.8
62.3
63.7
66.2
SWE-Bench 検証済み(SWE-Agentあり)
44.3
40.9
40.6
34.6
SWE-Bench 多言語(SWE-Agentあり)
36.2
39.3
37.1
32.6
SWE-Bench Pro(SWE-Agentあり)、ターミナル-Bench 2.0(Terminus-2 jsonあり)、Aider
66.2
69.9
52.1
61.0



最終更新
役に立ちましたか?

