For the complete documentation index, see llms.txt. This page is also available as Markdown.

💜Qwen3.6 - ローカル実行方法

新しいQwen3.6-27Bと35B-A3Bモデルをローカルで実行しましょう!

Qwen3.6はAlibabaの新しいマルチモーダル・ハイブリッド思考モデル群で、以下を含みます: Qwen3.6-27B35B-A3B。サイズに対して最高クラスの性能を発揮し、201言語で256Kコンテキストをサポートします。エージェント的コーディング、画像認識、チャットタスクに優れています。Qwen3.6-27Bは 18GB RAM 構成で動作し、35B-A3Bは 22GBで動作します。今すぐモデルを Unsloth Studio.

Qwen3.6チュートリアルを実行MTPガイド

Qwen3.6 GGUFはUnslothの Dynamic 2.0 を使用して、SOTAレベルの量子化性能を実現します。つまり、量子化は実際のユースケースデータセットで較正され、重要な層は上位精度に変換されます。 初日からのアクセスを提供してくれたQwenに感謝します。

  • Developerロールのサポート Codex、OpenCodeなど向け: 私たちのアップロードは今後 developer role をエージェント的コーディングツール向けにサポートします。

  • ツール呼び出し: たとえば Qwen3.5のように、ネストされたオブジェクトの解析を改善して、ツール呼び出しの成功率を高めました。

Qwen3.6を Unsloth Studio.

⚙️ 使用ガイド

表:推論に必要なハードウェア (単位 = 合計メモリ:RAM + VRAM、またはユニファイドメモリ)

Qwen3.6
3-bit
4-bit
6-bit
8-bit
BF16

27B

15 GB

18 GB

24 GB

30 GB

55 GB

35B-A3B

17 GB

23 GB

30 GB

38 GB

70 GB

Qwen3.6の学習には、以前の Qwen3.5ファインチューニングガイド.

推奨設定

  • 最大コンテキストウィンドウ: 262,144 (YaRNで1Mまで拡張可能)

  • presence_penalty = 0.0 から 2.0 デフォルトではオフですが、繰り返しを減らすために使用できます。ただし、値を大きくすると 性能がわずかに低下する場合があります

  • 適切な出力長: 32,768 ほとんどのクエリでのトークン数

文字化けする場合、コンテキスト長が短すぎる可能性があります。あるいは、次を試してください。 --cache-type-k bf16 --cache-type-v bf16 これが役立つ場合があります。

Qwen3.6はハイブリッド推論であるため、思考モードと非思考モードでは設定が異なります:

思考モード:

一般タスク
精密なコーディングタスク(例:WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat_penalty = 無効 または 1.0

repeat_penalty = 無効 または 1.0

一般タスク向けの思考モード:

精密なコーディングタスク向けの思考モード:

Instruct(非思考)モードの設定:

一般タスク
推論タスク

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat_penalty = 無効 または 1.0

repeat_penalty = 無効 または 1.0

一般タスク向けのInstruct(非思考)モード:

推論タスク向けのInstruct(非思考)モード:

Qwen3.6推論チュートリアル:

今回は Dynamic 4-bit を使用します UD_Q4_K_XL 推論ワークロード向けのGGUFバリアントです。以下をクリックして、対象モデルの手順に移動してください:

MTPガイドUnsloth Studioで実行llama.cppで実行

presence_penalty = 0.0 から 2.0 デフォルトではオフですが、繰り返しを減らすために使用できます。ただし、値を大きくすると 性能がわずかに低下します。

現時点では、mmprojのvisionファイルが別になっているため、Qwen3.6 GGUFはOllamaでは動作しません。llama.cpp互換のバックエンドを使用してください。

⚡ MTPガイド

MTP(Multi Token Prediction) speculative decoding により、Qwen3.6のようなモデルは 約1.4〜2倍高速な生成を 精度の変化なしで実現できます。これにより、Qwen3.6 27Bと35B-A3Bは 1.4倍超の高速化を 元のベースラインに対して達成でき、特にローカルモデルで有用です。

Qwen3.6 27Bは現在140 tokens/s、Qwen3.6 35B-A3Bは220 tokens/sで生成できます! 詳細は Qwen3.6 こちら

実際には、MTPは将来の複数トークンを予測し、メインモデルがそれらのトークンを並列で検証します。これにより、生成中に必要な順伝播回数が減り、出力が高速化します。私たちは --spec-draft-n-max 2 が最もよく動作することを確認しました!

1

インストールしてください 特定の llama.cpp PRブランチを GitHubはこちら。以下のビルド手順に従っても構いません。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPUがない場合、またはCPU推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、次を設定し -DGGML_CUDA=OFF その後は通常どおり続けてください。Metalサポートはデフォルトで有効です。

2

もし llama.cpp を直接使ってモデルを読み込みたい場合は、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からもダウンロードできます。これは ollama run に似ています。次を使用してください export LLAMA_CACHE="folder" を使って llama.cpp 特定の場所に保存させることができます。モデルの最大コンテキスト長は256Kです。

対象モデルごとのコマンドのいずれかに従ってください:

27B MTP35-A3B MTP

MTP Qwen3.6-27B:

思考モード:

Qwen3.6の新しい Preserved Thinking.

一般タスク:

精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0

非思考モード:

一般タスク:

推論タスクでは、次を変更します: temperature=1.0, top-p=0.95

MTP Qwen3.6-35B-A3B:

思考モード:

Qwen3.6の新しい Preserved Thinking.

一般タスク:

精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0

非思考モード:

一般タスク:

推論タスクでは、次を変更します: temperature=1.0, top-p=0.95

3

以下のコードでモデルをダウンロードします(インストール後に pip install huggingface_hub hf_transfer)。Q4_K_M や、次のような他の量子化版も選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2-bit dynamic quantの使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、こちらを参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

🦥 Unsloth Studioガイド

Qwen3.6は Unsloth Studioで実行・ファインチューニングできます。これはローカルAI向けの新しいオープンソースWeb UIです。Unsloth Studioでは、 MacOS、Windows、Linux上でモデルをローカル実行でき、さらに:

1

Unslothをインストール

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unslothを起動

MacOS、Linux、WSL、Windows:

その後、ブラウザで http://127.0.0.1:8888 (または指定のURL)を開いてください。

3

Qwen3.6を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。

次に Studio Chat タブに移動し、検索バーでQwen3.6を検索して、必要なモデルと量子化をダウンロードしてください。

4

Qwen3.6を実行

Unsloth Studioを使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、 Unsloth Studio推論ガイドをご覧ください。以下では、2-bit Qwen3.6 GGUFが30回以上のツール呼び出し、20サイトの検索、Pythonコードの実行を行いました:

🦙 Llama.cppガイド

このガイドでは、Dynamic 4-bit を使用します。これは24GB RAM / Macデバイスで高速推論に非常に適しています。 llama.cpp。モデルはF16フル精度でも約72GBしかないため、性能についてあまり心配する必要はありません。 GGUFコレクションを見る.

27B35-A3B

1

最新のものを入手 llama.cpp GitHubはこちら。以下のビルド手順に従っても構いません。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPUがない場合、またはCPU推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、次を設定し -DGGML_CUDA=OFF その後は通常どおり続けてください。Metalサポートはデフォルトで有効です。

2

もし llama.cpp を直接使ってモデルを読み込みたい場合は、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からもダウンロードできます。これは ollama run に似ています。次を使用してください export LLAMA_CACHE="folder" を使って llama.cpp 特定の場所に保存させることができます。モデルの最大コンテキスト長は256Kです。

対象モデルごとのコマンドのいずれかに従ってください:

27B35-A3B

Qwen3.6-27B:

思考モード:

Qwen3.6の新しい Preserved Thinking.

一般タスク:

精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0

非思考モード:

一般タスク:

推論タスクでは、次を変更します: temperature=1.0, top-p=0.95

Qwen3.6-35B-A3B:

思考モード:

Qwen3.6の新しい Preserved Thinking.

一般タスク:

精密なコーディングタスクでは、次を変更します: temperature=0.6, presence-penalty=0.0

非思考モード:

一般タスク:

推論タスクでは、次を変更します: temperature=1.0, top-p=0.95

3

以下のコードでモデルをダウンロードします(インストール後に pip install huggingface_hub hf_transfer)。Q4_K_M や、次のような他の量子化版も選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2-bit dynamic quantの使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、こちらを参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

Llama-server と OpenAI completion ライブラリ

Qwen3.6を本番環境にデプロイするには、 llama-server を使用します。新しいターミナル、たとえば tmux 経由で、次の方法でモデルをデプロイします:

その後、新しいターミナルで、 pip install openaiを実行した後に、次を実行します:

🍎 MLX Dynamic Quants

MacOSデバイス向けに、動的なQwen3.6 4bitと8bitの量子化モデルもアップロードしました!私たちのMLX量子化アルゴリズムはまだ進化中で、改善できる箇所は積極的に洗練しています。

Qwen3.6-27B MLX:

Qwen3.6-35B-A3B MLX:

試すには次を使用します:

Qwen3.6-27BのKL Divergence(KLD)とPerplexity(PPL)のスコアは以下をご覧ください(低いほど良い):

モデル
平均KLD
中央値KLD
PPL
P90 KLD
P99.9 KLD
サイズ

0.0028

0.0003

4.812

0.0019

0.192

34.7 GB

0.0037

0.0007

4.809

0.0032

0.343

30.5 GB

0.0227

0.0053

4.821

0.0293

2.339

26.2 GB

0.0325

0.0087

4.843

0.0466

3.693

26.2 GB

0.0479

0.0153

4.902

0.0769

4.035

25.6 GB

0.0734

0.0223

4.976

0.1261

5.529

24.1 GB

💡 思考:有効化/無効化 + Preserve Thinking

Qwen3.6にはさらに Preserve Thinking があり、前回の会話の思考痕跡を残します。これにより使用トークン数は増えますが、継続会話での精度が向上する可能性があります。Unsloth StudioにはQwen3.6向けの 'Think' と Preserved Thinking のトグルがあります:

Unsloth StudioにはデフォルトでThinkトグルがあり、新しい Preserved Thinking トグル

があります preserve thinking をllama.cppで有効にするには('true' または 'false' に変更)、次の 'preseve_thinking' を 'enable_thinking' または 'disable_thinking'.

通常の思考では、以下のコマンドに従ってllama.cppで思考の有効化/無効化を行えます。'true' と 'false' は同じ意味で使えます。

llama-server OS:
思考を有効化
思考を無効化

Linux、MacOS、WSL:

Windows / Powershell:

例として、Qwen3.6-35B-A3Bでpreserve thinkingを有効にする場合(デフォルトでは有効):

そしてPythonでは:

👨‍💻 OpenAI Codex & Claude Code

ローカルのコーディング用エージェントワークロード経由でモデルを実行するには、 こちらのガイドに従ってください。モデル名を 'Qwen3.6' の該当バリアントに変更し、正しいQwen3.6のパラメータと使用手順に従ってください。 llama-server 先ほど設定した

Claude Codeの手順に従うと、たとえば次のように表示されます:

その後、たとえば次を指示できます チェス用のPythonゲームを作成して :

📊 ベンチマーク

Unsloth GGUFベンチマーク

最適な量子化を選べるように、プロバイダをまたいでQwen3.6-35-A3B GGUFの平均KL Divergenceベンチマークを実施しました。

  • KL Divergenceにより、ほぼすべてのUnsloth GGUFがSOTAのParetoフロンティア上に位置します

  • KLDは、量子化モデルが元のBF16出力分布にどれだけ一致しているかを示し、保持された精度を示します。

  • これにより、22サイズ中21でUnslothが最高性能となっています

  • より多くのDynamic層のためにQ6_Kのみ更新され、新しい UD-IQ4_NL_XL quant

35B-A3B - KLDベンチマーク(低いほど良い)

MTPベンチマーク

27Bと35B MoE向けに作成した新しい量子化モデルをベンチマークしました。一般に、密モデルはMoEモデル(1.15〜1.25倍)よりも、MTPで大幅に高速化されます(1.4〜2倍)。

これにより、Qwen3.6 27BはUD-Q2_K_XLで140 tokens/s、Qwen3.6 35B-A3Bは220 tokens/sの生成が可能になりました!スループット値の一部はノイズがあるため、ある量子化が他より遅いと解釈しないでください。

平均的な高速化では、draft tokens = 2で密モデルは1.4倍、MoEではおよそ1.15〜1.2倍です。

4 draft tokensでは受理率が83%から50%へ急落し、MTPの順伝播があまり有利でなくなるため、2 draft tokensを超えることは推奨しません。

公式Qwenベンチマーク

Qwen3.6-27B

Qwen3.6-35B-A3B

最終更新

役に立ちましたか?