🌠Qwen3-Coder-Next: ローカル実行方法

Qwen3-Coder-Nextをデバイス上でローカル実行するためのガイド!

Qwen が Qwen3-Coder-Next をリリースしました。80B の MoE モデル(有効パラメータ 3B)で、 256Kのコンテキスト 高速なエージェント的コーディングとローカル利用向けです。10〜20倍多い有効パラメータを持つモデルに匹敵する性能です。

これは 46GB の RAM/VRAM/統合メモリ(8-bit では 85GB)で動作し、超高速なコード応答のために非推論モードです。このモデルは長期的な推論、複雑なツール使用、実行失敗からの復旧に優れています。

また、Codex と Claude Code でモデルを実行する方法も学べます。 ファインチューニングについては、Qwen3-Next-Coder は Unsloth で bf16 LoRA を使う場合、1枚の B200 GPU に収まります。

Qwen3-Coder-Next Unsloth Dynamic GGUF を実行するには: unsloth/Qwen3-Coder-Next-GGUF

GGUF 実行チュートリアルCodex & Claude CodeFP8 vLLM チュートリアル

⚙️ 使用ガイド

46GB の RAM か統合メモリがありませんか?心配いりません。3-bit のような小さい量子化版を実行できます。モデルサイズは計算資源の合計( ディスク容量 + RAM + VRAM ≥ 量子化版のサイズ)と同じかそれ以上であるのが理想です。 量子化版がデバイスに完全に収まるなら、20 tokens/s 超が期待できます。収まらなくてもオフロードで動作しますが、速度は遅くなります。

を使用します。最適な性能を得るために、Qwenは以下の設定を推奨しています:

  • Temperature = 1.0

  • Top_P = 0.95

  • Top_K = 40

  • Min_P = 0.01 (llama.cpp のデフォルトは 0.05)

  • 繰り返しペナルティ = 無効 または 1.0

最大 262,144 のコンテキストをネイティブにサポートしますが、 32,768 メモリ使用量を抑えるための token。

🖥️ Qwen3-Coder-Next を実行

用途に応じて、異なる設定を使う必要があります。このガイドでは 4-bit を使用するため、約 46GB の RAM/統合メモリが必要です。最良の性能のため、少なくとも 3-bit 精度の使用を推奨します。

🦥 Unsloth Studio ガイド

Qwen3-Coder-Next は次の環境で実行・ファインチューニングできます Unsloth Studioで実行およびファインチューニングできます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで実行できます MacOS、Windows、Linux および:

1

Unslothをインストールする

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL、Windows:

その後、 http://localhost:8888 をブラウザで開いてください。

3

Qwen3-Coder-Next を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップして、直接チャットへ進めます。

その後、 Studio Chat タブで Qwen3-Coder-Next を検索バーに入力し、希望するモデルと量子化版をダウンロードしてください。

4

Qwen3-Coder-Next を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

Llama.cpp チュートリアル(GGUF):

llama.cpp で実行するための手順(ほとんどのデバイスに収まるよう 4-bit を使用します):

1

最新の llama.cppGitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。

2

Hugging Face から直接 pull できます。RAM/VRAM に収まるなら、コンテキストを 256K まで増やせます。 --fit on を使うと、コンテキスト長も自動で判定されます。

推奨パラメータを使用できます: temperature=1.0, top_p=0.95, top_k=40

3

モデルのダウンロード( pip install huggingface_hubのインストール後)。 UD-Q4_K_XL などの他の量子化版もあります。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

また、 コンテキストウィンドウ 必要に応じて、最大で 262,144

注意: このモデルは非思考モードのみをサポートし、 <think></think> ブロックを出力しません。そのため、 enable_thinking=False を指定する必要はなくなりました。

🦙Llama-server のサービングとデプロイ

Qwen3-Coder-Next を本番環境にデプロイするには、 llama-server tmux などで新しいターミナルを開いてから、次の方法でモデルをデプロイします:

次に新しいターミナルで、 pip install openaiで、モデルを実行できます:

すると次のように出力されます:

HTML を抽出して実行してみたところ、生成された Flappy Bird のサンプルはうまく動作しました!

👾 OpenAI Codex & Claude Code

ローカルのコーディングエージェント的ワークロード経由でモデルを実行するには、 ガイドに従ってください. モデル名 'GLM-4.7-Flash' を 'Qwen3-Coder-Next' に変更し、正しい Qwen3-Coder-Next のパラメータと使用手順に従ってください。 llama-server さっき設定した

たとえばClaude Codeの手順に従うと、次が表示されます:

では、次のように依頼できます Pythonでチェスゲームを作成して :

次のような表示が出たら API Error: 400 {"error":{"code":400,"message":"request (16582 tokens) exceeds the available context size (16384 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":16582,"n_ctx":16384}} それは、コンテキスト長を増やす必要があるか、または Qwen3-Coder-Next

🎱 vLLM における FP8 Qwen3-Coder-Next

新しい FP8 Dynamic 量子化版 を使って、高品質で高速な推論が可能になりました。まず nightly 版から vLLM をインストールします。 --extra-index-url https://wheels.vllm.ai/nightly/cu130 を、次で確認したあなたの CUDA バージョンに変更してください nvidia-smi - 現在サポートされているのは cu129 および cu130 のみです。

その後、 Unsloth の動的 FP8 版 のモデルをサーブします。さらに、次を追加することで KV キャッシュのメモリ使用量を 50% 削減するために FP8 を有効化することもできます --kv-cache-dtype fp8 4 GPU でサーブしましたが、1 GPU の場合は CUDA_VISIBLE_DEVICES='0' を使い、 --tensor-parallel-size 1 を設定するか、この引数を削除してください。 tmux を使って、下の処理を新しいターミナルで起動し、その後 CTRL+B+D - 次を使います tmux attach-session -t0 で戻れます。

以下のようなものが見えるはずです。 Qwen3-Coder-Next Qwen3-Coder-Next を OpenAI API とツール呼び出しで実際に使う方法については

🔧Qwen3-Coder-Next のツール呼び出し

新しいターミナルで、2つの数値の加算、Pythonコードの実行、Linux関数の実行など、さまざまなツールを作成します:

その後、以下の関数(コピーして貼り付けて実行)を使用します。これにより関数呼び出しが自動的に解析され、任意のモデルに対して OpenAI エンドポイントが呼び出されます:

これから、さまざまなユースケースにおけるツール呼び出しの複数の方法を以下で紹介します:

生成されたPythonコードを実行する

任意のターミナル関数を実行する

ファイルが作成されたことを確認し、実際に作成されています!

参照 Tool Calling Guide を参照してください。

📐ベンチマーク

GGUF 量子化ベンチマーク

以下は第三者評価者によって実施された量子化ベンチマークです。

Aider Polyglot ベンチマーク
Benjamine Marie ベンチマーク(ソース)

ベンチマークは第三者の寄稿者によって Aider Polyglot サーバー上で実施され、Aider Polyglot ベンチマーク(スコア対 VRAM)で Unsloth GGUF 量子化版を比較したものです。特に 3-bit UD-IQ3_XXS 量子化版は BF16 の性能にかなり近く、 3-bit は実用上の妥当な最小値 になっています。

NVFP4 は BF16 の参照値をわずかに上回っており、これは実行回数が少ないことによるサンプリングノイズかもしれません。しかし、全体的な傾向として 1-bit → 2-bit → 3-bit → 6-bit と着実に改善していることから、このベンチマークは Unsloth GGUF 間の意味のある品質差を捉えていると考えられます。 非 Unsloth の FP8 は、 UD-IQ3_XXS および UD-Q6_K_XLの両方より性能が低いようで、これは量子化パイプラインの違い、あるいは単にサンプリング不足を反映している可能性があります。

Benjamin Marie(第三者)がベンチマークを実施 Qwen3-Coder-Next Unsloth と Qwen GGUF を使って 750プロンプトの混合セット (LiveCodeBench v6、MMLU Pro、GPQA、Math500)で、次の両方を報告: 全体精度 および 相対誤差増加 (量子化モデルが元のモデルよりどれだけ多くミスするか)。

グラフは明確に、Unsloth の Q4_K_M 量子化版が標準の Q4_K_M より優れていることを示しています。Q3_K_M は Live Code Bench v6 では予想通り性能が劣りますが、HumanEval では標準の Q4_K_M より驚くほど良い結果です。 最も効率よく動作しているようなので、少なくとも Q4_K_M の使用を推奨します。

Qwen3-Coder-Next ベンチマーク

Qwen3-Coder-Next はサイズの割に最も高性能なモデルであり、その性能は 10〜20倍多い有効パラメータを持つモデルに匹敵します。

ベンチマーク
Qwen3-Coder-Next (80B)
DeepSeek-V3.2 (671B)
GLM-4.7 (358B)
MiniMax M2.1 (229B)

SWE-Bench Verified (w/ SWE-Agent)

70.6

70.2

74.2

74.8

SWE-Bench Multilingual (w/ SWE-Agent)

62.8

62.3

63.7

66.2

SWE-Bench Pro (w/ SWE-Agent)

44.3

40.9

40.6

34.6

Terminal-Bench 2.0 (w/ Terminus-2 json)

36.2

39.3

37.1

32.6

Aider

66.2

69.9

52.1

61.0

最終更新

役に立ちましたか?