💜Qwen3.6 - ローカル実行方法
新しいQwen3.6-27Bと35B-A3Bモデルをローカルで実行しましょう!
Qwen3.6はAlibabaの新しいマルチモーダル・ハイブリッド思考モデル群で、以下を含みます: Qwen3.6-27B と 35B-A3B。サイズに対して最高クラスの性能を発揮し、201言語で256Kコンテキストをサポートします。エージェント的コーディング、画像認識、チャットタスクに優れています。Qwen3.6-27Bは 18GB RAM 構成で動作し、35B-A3Bは 22GBで動作します。今すぐモデルを Unsloth Studio.
NEW: Qwen3.6 MTP が登場!MTPにより、精度を落とさずに1.4〜2倍高速な推論が可能です
私たちは Qwen3.6 GGUFベンチマーク を実施し、最適な量子化を選ぶ手助けをします。
Qwen3.6 GGUFはUnslothの Dynamic 2.0 を使用して、SOTAレベルの量子化性能を実現します。つまり、量子化は実際のユースケースデータセットで較正され、重要な層は上位精度に変換されます。 初日からのアクセスを提供してくれたQwenに感謝します。
Developerロールのサポート Codex、OpenCodeなど向け: 私たちのアップロードは今後
developer roleをエージェント的コーディングツール向けにサポートします。ツール呼び出し: たとえば Qwen3.5のように、ネストされたオブジェクトの解析を改善して、ツール呼び出しの成功率を高めました。

⚙️ 使用ガイド
表:推論に必要なハードウェア (単位 = 合計メモリ:RAM + VRAM、またはユニファイドメモリ)
27B
15 GB
18 GB
24 GB
30 GB
55 GB
35B-A3B
17 GB
23 GB
30 GB
38 GB
70 GB
最良の性能を得るには、利用可能な合計メモリ(VRAM + システムRAM)が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。上回っていない場合でも、llama.cppはSSD/HDDオフロードで実行できますが、推論は遅くなります。
CUDA 13.2は使用しないでください。文字化けした出力が出る可能性があります。NVIDIAが修正版を作業中です。
Qwen3.6の学習には、以前の Qwen3.5ファインチューニングガイド.
推奨設定
最大コンテキストウィンドウ:
262,144(YaRNで1Mまで拡張可能)presence_penalty = 0.0 から 2.0デフォルトではオフですが、繰り返しを減らすために使用できます。ただし、値を大きくすると 性能がわずかに低下する場合があります適切な出力長:
32,768ほとんどのクエリでのトークン数
文字化けする場合、コンテキスト長が短すぎる可能性があります。あるいは、次を試してください。 --cache-type-k bf16 --cache-type-v bf16 これが役立つ場合があります。
Qwen3.6はハイブリッド推論であるため、思考モードと非思考モードでは設定が異なります:
思考モード:
Qwen3.6には現在 Preserve Thinking.
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat_penalty = 無効 または 1.0
repeat_penalty = 無効 または 1.0
一般タスク向けの思考モード:
精密なコーディングタスク向けの思考モード:
Instruct(非思考)モードの設定:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat_penalty = 無効 または 1.0
repeat_penalty = 無効 または 1.0
思考を 無効化するには、次を使用します --chat-template-kwargs '{"enable_thinking":false}'
もし Windows Powershellなら、次を使用してください: --chat-template-kwargs "{\"enable_thinking\":false}"
'true' と 'false' は同じ意味で使えます。
一般タスク向けのInstruct(非思考)モード:
推論タスク向けのInstruct(非思考)モード:
Qwen3.6推論チュートリアル:
今回は Dynamic 4-bit を使用します UD_Q4_K_XL 推論ワークロード向けのGGUFバリアントです。以下をクリックして、対象モデルの手順に移動してください:
CUDA 13.2は使用しないでください。文字化けした出力が出る可能性があります。NVIDIAが修正版を作業中です。
MTPガイドUnsloth Studioで実行llama.cppで実行
presence_penalty = 0.0 から 2.0 デフォルトではオフですが、繰り返しを減らすために使用できます。ただし、値を大きくすると 性能がわずかに低下します。
現時点では、mmprojのvisionファイルが別になっているため、Qwen3.6 GGUFはOllamaでは動作しません。llama.cpp互換のバックエンドを使用してください。
⚡ MTPガイド
MTP(Multi Token Prediction) speculative decoding により、Qwen3.6のようなモデルは 約1.4〜2倍高速な生成を 精度の変化なしで実現できます。これにより、Qwen3.6 27Bと35B-A3Bは 1.4倍超の高速化を 元のベースラインに対して達成でき、特にローカルモデルで有用です。
Qwen3.6 27Bは現在140 tokens/s、Qwen3.6 35B-A3Bは220 tokens/sで生成できます! 詳細は Qwen3.6 こちら

実際には、MTPは将来の複数トークンを予測し、メインモデルがそれらのトークンを並列で検証します。これにより、生成中に必要な順伝播回数が減り、出力が高速化します。私たちは --spec-draft-n-max 2 が最もよく動作することを確認しました!
インストールしてください 特定の llama.cpp PRブランチを GitHubはこちら。以下のビルド手順に従っても構いません。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPUがない場合、またはCPU推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、次を設定し -DGGML_CUDA=OFF その後は通常どおり続けてください。Metalサポートはデフォルトで有効です。
もし llama.cpp を直接使ってモデルを読み込みたい場合は、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からもダウンロードできます。これは ollama run に似ています。次を使用してください export LLAMA_CACHE="folder" を使って llama.cpp 特定の場所に保存させることができます。モデルの最大コンテキスト長は256Kです。
対象モデルごとのコマンドのいずれかに従ってください:
MTP Qwen3.6-27B:
思考モード:
Qwen3.6の新しい Preserved Thinking.
一般タスク:
精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0
非思考モード:
一般タスク:
推論タスクでは、次を変更します: temperature=1.0, top-p=0.95
MTP Qwen3.6-35B-A3B:
思考モード:
Qwen3.6の新しい Preserved Thinking.
一般タスク:
精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0
非思考モード:
一般タスク:
推論タスクでは、次を変更します: temperature=1.0, top-p=0.95
以下のコードでモデルをダウンロードします(インストール後に pip install huggingface_hub hf_transfer)。Q4_K_M や、次のような他の量子化版も選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2-bit dynamic quantの使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、こちらを参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
🦥 Unsloth Studioガイド
Qwen3.6は Unsloth Studioで実行・ファインチューニングできます。これはローカルAI向けの新しいオープンソースWeb UIです。Unsloth Studioでは、 MacOS、Windows、Linux上でモデルをローカル実行でき、さらに:
検索、ダウンロード、 GGUFの実行 およびsafetensorモデル
自己修復 ツール呼び出し + Web検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-pなど)
llama.cpp経由の高速なCPU + GPU推論
LLMを学習 VRAM 70%削減で2倍高速

Qwen3.6を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。
次に Studio Chat タブに移動し、検索バーでQwen3.6を検索して、必要なモデルと量子化をダウンロードしてください。

Qwen3.6を実行
Unsloth Studioを使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細については、 Unsloth Studio推論ガイドをご覧ください。以下では、2-bit Qwen3.6 GGUFが30回以上のツール呼び出し、20サイトの検索、Pythonコードの実行を行いました:
🦙 Llama.cppガイド
このガイドでは、Dynamic 4-bit を使用します。これは24GB RAM / Macデバイスで高速推論に非常に適しています。 llama.cpp。モデルはF16フル精度でも約72GBしかないため、性能についてあまり心配する必要はありません。 GGUFコレクションを見る.
最新のものを入手 llama.cpp で GitHubはこちら。以下のビルド手順に従っても構いません。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPUがない場合、またはCPU推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、次を設定し -DGGML_CUDA=OFF その後は通常どおり続けてください。Metalサポートはデフォルトで有効です。
もし llama.cpp を直接使ってモデルを読み込みたい場合は、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からもダウンロードできます。これは ollama run に似ています。次を使用してください export LLAMA_CACHE="folder" を使って llama.cpp 特定の場所に保存させることができます。モデルの最大コンテキスト長は256Kです。
対象モデルごとのコマンドのいずれかに従ってください:
Qwen3.6-27B:
思考モード:
Qwen3.6の新しい Preserved Thinking.
一般タスク:
精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0
非思考モード:
一般タスク:
推論タスクでは、次を変更します: temperature=1.0, top-p=0.95
Qwen3.6-35B-A3B:
思考モード:
Qwen3.6の新しい Preserved Thinking.
一般タスク:
精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0
非思考モード:
一般タスク:
推論タスクでは、次を変更します: temperature=1.0, top-p=0.95
以下のコードでモデルをダウンロードします(インストール後に pip install huggingface_hub hf_transfer)。Q4_K_M や、次のような他の量子化版も選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2-bit dynamic quantの使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、こちらを参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
Llama-server と OpenAI completion ライブラリ
Qwen3.6を本番環境にデプロイするには、 llama-server を使用します。新しいターミナル、たとえば tmux 経由で、次の方法でモデルをデプロイします:
その後、新しいターミナルで、 pip install openaiを実行した後に、次を実行します:
🍎 MLX Dynamic Quants
MacOSデバイス向けに、動的なQwen3.6 4bitと8bitの量子化モデルもアップロードしました!私たちのMLX量子化アルゴリズムはまだ進化中で、改善できる箇所は積極的に洗練しています。
Qwen3.6-27B MLX:
Qwen3.6-35B-A3B MLX:
試すには次を使用します:
Qwen3.6-27BのKL Divergence(KLD)とPerplexity(PPL)のスコアは以下をご覧ください(低いほど良い):
💡 思考:有効化/無効化 + Preserve Thinking
Qwen3.6にはさらに Preserve Thinking があり、前回の会話の思考痕跡を残します。これにより使用トークン数は増えますが、継続会話での精度が向上する可能性があります。Unsloth StudioにはQwen3.6向けの 'Think' と Preserved Thinking のトグルがあります:

があります preserve thinking をllama.cppで有効にするには('true' または 'false' に変更)、次の 'preseve_thinking' を 'enable_thinking' または 'disable_thinking'.
通常の思考では、以下のコマンドに従ってllama.cppで思考の有効化/無効化を行えます。'true' と 'false' は同じ意味で使えます。
Linux、MacOS、WSL:
Windows / Powershell:
例として、Qwen3.6-35B-A3Bでpreserve thinkingを有効にする場合(デフォルトでは有効):
そしてPythonでは:
👨💻 OpenAI Codex & Claude Code
ローカルのコーディング用エージェントワークロード経由でモデルを実行するには、 こちらのガイドに従ってください。モデル名を 'Qwen3.6' の該当バリアントに変更し、正しいQwen3.6のパラメータと使用手順に従ってください。 llama-server 先ほど設定した
Claude Codeの手順に従うと、たとえば次のように表示されます:

その後、たとえば次を指示できます チェス用のPythonゲームを作成して :



📊 ベンチマーク
Unsloth GGUFベンチマーク
最適な量子化を選べるように、プロバイダをまたいでQwen3.6-35-A3B GGUFの平均KL Divergenceベンチマークを実施しました。
KL Divergenceにより、ほぼすべてのUnsloth GGUFがSOTAのParetoフロンティア上に位置します
KLDは、量子化モデルが元のBF16出力分布にどれだけ一致しているかを示し、保持された精度を示します。
これにより、22サイズ中21でUnslothが最高性能となっています
より多くのDynamic層のためにQ6_Kのみ更新され、新しい
UD-IQ4_NL_XLquant

MTPベンチマーク
27Bと35B MoE向けに作成した新しい量子化モデルをベンチマークしました。一般に、密モデルはMoEモデル(1.15〜1.25倍)よりも、MTPで大幅に高速化されます(1.4〜2倍)。
これにより、Qwen3.6 27BはUD-Q2_K_XLで140 tokens/s、Qwen3.6 35B-A3Bは220 tokens/sの生成が可能になりました!スループット値の一部はノイズがあるため、ある量子化が他より遅いと解釈しないでください。

平均的な高速化では、draft tokens = 2で密モデルは1.4倍、MoEではおよそ1.15〜1.2倍です。

4 draft tokensでは受理率が83%から50%へ急落し、MTPの順伝播があまり有利でなくなるため、2 draft tokensを超えることは推奨しません。

公式Qwenベンチマーク
Qwen3.6-27B

Qwen3.6-35B-A3B

最終更新
役に立ちましたか?


