💜Qwen3.5 - ローカルでの実行ガイド
Qwen3.5の新しいLLM(Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B、Small: Qwen3.5-0.8B, 2B, 4B, 9B、そして397B-A17B)をローカルデバイスで実行しましょう!
Qwen3.5はアリババの新しいモデルファミリーで、Qwen3.5-35B-A3B, 27B, 122B-A10Bおよび 397B-A17Bと新しい Small シリーズ:Qwen3.5-0.8B、2B、4B、9B。マルチモーダルなハイブリッド推論LLMは、そのサイズに対して最も強力な性能を発揮します。これらは 256Kコンテキスト 201言語にわたり、 thinking + non-thinking、エージェント型コーディング、ビジョン、チャット、長文コンテキストのタスクで優れています。35Bおよび27Bモデルは22GBのMac/ RAMデバイスで動作します。すべてを見る GGUFはここ.
3月5日アップデート: Qwen3.5-を再ダウンロードしてください35B, 27B, 122B および 397B.
すべてのGGUFは現在、 改善された量子化 アルゴリズムで更新されています。
すべては当社の 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、およびツール呼び出しのユースケースでいくつかの改善が見られます。
チャットテンプレートの修正に伴いツール呼び出しが改善されました 。 修正はユニバーサルで 適用されます 任意の Qwen3.5フォーマットおよび 任意の アップローダーに。
新しいGGUFベンチマークを確認してください Unslothの性能結果 + 当社の MXFP4調査.
当社は3つのQwen3.5 GGUFからMXFP4レイヤーを廃止します:Q2_K_XL、Q3_K_XL、およびQ4_K_XL。
すべてのアップロードはUnslothを使用しています Dynamic 2.0 で最先端の量子化性能を実現しているため、4ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Unslothにデイゼロのアクセスを提供してくれたQwenに感謝します。さらに 微調整(fine-tune)することもできます Qwen3.5 をUnslothで。
thinkingを有効または無効にするには、次を参照してください Qwen3.5。Qwen3.5 Smallモデルはデフォルトで無効になっています。詳細は LM Studioガイド を参照してThinkトグルを有効にしてください。
35B-A3B27B122B-A10B397B-A17BQwen3.5を微調整する0.8B • 2B • 4B • 9B
⚙️ 使用ガイド
表:推論ハードウェア要件 (単位=合計メモリ:RAM + VRAM、または統合メモリ)
最高のパフォーマンスを得るには、利用可能な合計メモリ(VRAM + システムRAM)がダウンロードする量子化モデルファイルのサイズを超えていることを確認してください。超えていない場合でも、llama.cppはSSD/HDDオフローディングで動作できますが、推論は遅くなります。
の間では、 27B および 35B-A3Bデバイスに収まらないが少し精度の高い結果が欲しい場合は27Bを使用してください。より高速な推論が欲しい場合は35B-A3Bを選んでください。
推奨設定
最大コンテキストウィンドウ:
262,144(YaRNを介して1Mまで拡張可能)presence_penalty = 0.0 〜 2.0デフォルトではオフですが、繰り返しを減らすためにこれを使用できます。ただし、高い値を使用すると パフォーマンスがわずかに低下する可能性があります:
32,768ほとんどのクエリに対する適切な出力長の
トークン数 意味不明な出力が出る場合、コンテキスト長が短すぎる可能性があります。あるいは --cache-type-k bf16 --cache-type-v bf16
を試してみてください。これが役立つ場合があります。
Qwen3.5はハイブリッド推論であるため、thinkingモードとnon-thinkingモードでは設定が異なります:
精密なコーディングタスク(例:Web開発)
temperature = 1.0
temperature = 0.6
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
presence_penalty = 0.0
repeat penalty = 無効 または 1.0
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
推論タスク
精密なコーディングタスク(例:Web開発)
temperature = 0.7
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 0.0
presence_penalty = 0.0
top_p = 0.8 するには、thinking / reasoningを無効にする には、次を使用してください
--chat-template-kwargs '{"enable_thinking":false}' もしあなたが Windows Powershellを使っている場合は、次を使用してください:
--chat-template-kwargs "{\"enable_thinking\":false}"
'true'と'false'は互換的に使用できます。Qwen3.5の0.8B、2B、4B、9Bでは、推論(reasoning)はデフォルトで無効になっています 。有効にするには、次を使用してください:
--chat-template-kwargs '{"enable_thinking":true}'
temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
推論タスク向けのInstruct(non-thinking):
Qwen3.5推論チュートリアル: Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードでDynamic 4-bitを使用します MXFP4_MOE
GGUFバリアントを使用します。下のリンクをクリックして指定されたモデルの説明に移動してください:27B122B-A10B397B-A17BQwen3.5-35B-A3BSmall(0.8B • 2B • 4B • 9B)
LM Studio
presence_penalty = 0.0 〜 2.0 デフォルトではオフですが、繰り返しを減らすためにこれを使用できます。ただし、高い値を使用すると Qwen3.5-
現在、個別のmmprojビジョンファイルのためOllamaではどのQwen3.5 GGUFも動作しません。llama.cpp互換のバックエンドを使用してください。
🦙 Llama.cppガイド
GGUFバリアントを使用します。下のリンクをクリックして指定されたモデルの説明に移動してください:
このガイドではDynamic 4-bitを利用します。これは24GB RAMのMacデバイスで高速な推論に適しています。モデルは完全なF16精度で約72GB程度なので、パフォーマンスについてあまり心配する必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF
これらのチュートリアルでは、私たちは llama.cpp を使用して高速なローカル推論を行います。特にCPUをお持ちの場合に有用です。
最新の llama.cpp を入手してください GitHubはこちら。以下のビルド手順に従うこともできます。GPUがない場合またはCPUのみで推論したい場合は、 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。 Apple Mac / Metalデバイスの場合は、次を設定し -DGGML_CUDA=OFF その後通常通り続けてください - Metalサポートはデフォルトでオンです。
直接モデルを読み込むために llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_M)は量子化タイプです。Hugging Faceから(ポイント3)ダウンロードすることもできます。これは ollama run に類似しています。 export LLAMA_CACHE="folder" を使用して保存先を強制することができます llama.cpp モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
Qwen3.5はハイブリッド推論であるため、thinkingモードとnon-thinkingモードでは設定が異なります:
精密なコーディングタスク(例:Web開発):
一般的なタスク:
Non-thinkingモード:
一般的なタスク:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョンを選択できます、例えば UD-Q4_K_XL 。サイズと精度のバランスを取るために、少なくとも2ビットのdynamic quantを使用することを推奨します UD-Q2_K_XL 。ダウンロードが停止した場合は次を参照してください: Hugging Face Hub、XETデバッグ
その後会話モードでモデルを実行します:
Qwen3.5 Small(0.8B • 2B • 4B • 9B)
Qwen3.5の0.8B、2B、4B、9Bについては、 reasoningは無効になっています デフォルトでQwen3.5の0.8B、2B、4B、9Bでは、推論(reasoning)はデフォルトで無効になっています 。有効にするには、次を使用してください:
Windowsでは次を使用してください: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 Smallシリーズは非常に小さいため、スクリプト内のモデル名を希望のバリアントに変更するだけで済みます。本ガイドでは9Bパラメータバリアントを使用します。ほぼフル精度で実行するには、12GBのRAM/VRAM/統合メモリデバイスが必要です。GGUF:
最新の llama.cpp を入手してください GitHubはこちら。以下のビルド手順に従うこともできます。GPUがない場合またはCPUのみで推論したい場合は、 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接モデルを読み込むために llama.cpp 直接モデルを読み込むために以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Faceから(ポイント3)ダウンロードすることもできます。これは ollama run に類似しています。 export LLAMA_CACHE="folder" を使用して保存先を強制することができます llama.cpp モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
9B以外のバリアントを使用するには、スクリプト内の '9B' を0.8B、2B、4Bなどに変更できます。
Thinkingモード(デフォルトで無効)
Qwen3.5 Smallモデルはデフォルトでthinkingを無効にしています。有効にするにはllama-serverを使用してください。
一般的なタスク:
9B以外のバリアントを使用するには、スクリプト内の '9B' を0.8B、2B、4Bなどに変更できます。
Non-thinkingモードはデフォルトで既にオンになっています
一般的なタスク:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョンを選択できます、例えば UD-Q4_K_XL 。サイズと精度のバランスを取るために、少なくとも2ビットのdynamic quantを使用することを推奨します UD-Q2_K_XL 。ダウンロードが停止した場合は次を参照してください: Hugging Face Hub、XETデバッグ
その後会話モードでモデルを実行します:
Qwen3.5-27B
このガイドでは、18GB RAMのMacデバイスで高速な推論に適したDynamic 4-bitを利用します。GGUF: Qwen3.5-27B-GGUF
最新の llama.cpp を入手してください GitHubはこちら。以下のビルド手順に従うこともできます。GPUがない場合またはCPUのみで推論したい場合は、 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接モデルを読み込むために llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_M)は量子化タイプです。Hugging Faceから(ポイント3)ダウンロードすることもできます。これは ollama run に類似しています。 export LLAMA_CACHE="folder" を使用して保存先を強制することができます llama.cpp モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
Qwen3.5はハイブリッド推論であるため、thinkingモードとnon-thinkingモードでは設定が異なります:
精密なコーディングタスク(例:Web開発):
一般的なタスク:
Non-thinkingモード:
一般的なタスク:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer )。Q4_K_Mや他の量子化バージョンを選択することができます Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードでDynamic 4-bitを使用します または他の量子化バージョンのような UD-Q4_K_XL 。サイズと精度のバランスを取るために、少なくとも2ビットのdynamic quantを使用することを推奨します UD-Q2_K_XL 。ダウンロードが停止した場合は次を参照してください: Hugging Face Hub、XETデバッグ
その後会話モードでモデルを実行します:
Qwen3.5-122B-A10B
このガイドでは、70GB RAMのMacデバイスで高速な推論に適したDynamic 4-bitを利用します。GGUF: Qwen3.5-122B-A10B-GGUF
最新の llama.cpp を入手してください GitHubはこちら。以下のビルド手順に従うこともできます。GPUがない場合またはCPUのみで推論したい場合は、 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接モデルを読み込むために llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_M)は量子化タイプです。Hugging Faceから(ポイント3)ダウンロードすることもできます。これは ollama run に類似しています。 export LLAMA_CACHE="folder" を使用して保存先を強制することができます llama.cpp モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
Qwen3.5はハイブリッド推論であるため、thinkingモードとnon-thinkingモードでは設定が異なります:
精密なコーディングタスク(例:Web開発):
一般的なタスク:
Non-thinkingモード:
一般的なタスク:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer )。Q4_K_Mや他の量子化バージョンを選択することができます Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードでDynamic 4-bitを使用します (dynamic 4bit)または他の量子化バージョンのような UD-Q4_K_XL 。サイズと精度のバランスを取るために、少なくとも2ビットのdynamic quantを使用することを推奨します UD-Q2_K_XL 。ダウンロードが停止した場合は次を参照してください: Hugging Face Hub、XETデバッグ
その後会話モードでモデルを実行します:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17BはGemini 3 Pro、Claude Opus 4.5、GPT-5.2と同じ性能カテゴリにあります。フルの397Bチェックポイントはディスク上で約807GBですが、 Unslothの397B GGUFを通じて 次のように実行できます:
3ビット: はに収まります 192GB RAM システム(例:192GBのMac)
4ビット(MXFP4): はに収まります 256GB RAM。Unsloth 4ビットダイナミックは UD-Q4_K_XL であり、 ディスク上で約214GBです - 直接ロードできます 256GB M3 Ultra上で
単一の24GB GPU + 256GBシステムRAMで動作します を介して MoEオフローディング 、到達する25+ トークン/秒 には
8ビット 約512GBのRAM/VRAMが必要です 要します
Unsloth GGUFの性能がどのようになるかは、 397B量子化ベンチマーク を参照してください。
最新の llama.cpp を入手してください GitHubはこちら。以下のビルド手順に従うこともできます。GPUがない場合またはCPUのみで推論したい場合は、 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接モデルを読み込むために llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_M)は量子化タイプです。Hugging Faceから(ポイント3)ダウンロードすることもできます。これは ollama run に類似しています。 export LLAMA_CACHE="folder" を使用して保存先を強制することができます llama.cpp 特定の場所に保存するにはを使用してください。モデルは最大256Kのコンテキスト長しか持たないことを忘れないでください。
これに従ってください thinking モード:
これに従ってください non-thinking モード:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer )。Q4_K_Mや他の量子化バージョンを選択することができます Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードでDynamic 4-bitを使用します (dynamic 4bit)または他の量子化バージョンのような UD-Q4_K_XL 。サイズと精度のバランスを取るために、少なくとも2ビットのdynamic quantを使用することを推奨します UD-Q2_K_XL 。ダウンロードが停止した場合は次を参照してください: Hugging Face Hub、XETデバッグ
--threads 32 を編集してCPUスレッド数を変更できます、 --threads 32 CPUスレッド数用、 --ctx-size 16384 はコンテキスト長用、 --n-gpu-layers 2 はGPUオフローディングするレイヤー数用です。GPUがメモリ不足になる場合は調整を試みてください。CPUのみの推論の場合はこれを削除してください。
👾 LM Studioガイド
このガイドでは、LLMを実行するための統合UIインターフェースである Small(0.8B • 2B • 4B • 9B)を使用します。「💡Thinking」と「Non-thinking」のトグルはデフォルトで表示されない場合があるため、それを動作させるために追加の手順が必要です。
をダウンロードしてください Small(0.8B • 2B • 4B • 9B) あなたのデバイス用に。そしてModel Searchを開き、'unsloth/qwen3.5'を検索して、希望するGGUF(量子化)をダウンロードしてください。

Thinkingトグルの手順: ダウンロード後、ターミナル/PowerShellを開いて次を試してください: lms --help。その後LM Studioが多くのコマンドとともに正常に表示される場合、次を実行してください:
これにより、GGUFに「💡Thinking」と「Non-thinking」トグルを表示させるyamlファイルが取得されます。 4b を希望する量子化に変更できます。

または、次に移動して 当社のLM Studioページ から特定のyamlファイルをダウンロードできます。
LM Studioを再起動し、ダウンロードしたモデル(思考トグル付き)をロードしてください。Thinkingトグルが有効になっているはずです。忘れずに 正しいパラメータ.

を設定してください。
🦙 Llama-serverによる配信 & OpenAIのcompletionライブラリ Qwen3.5-397B-A17Bを本番用にデプロイするには、 llama-server
--alias "unsloth/Qwen3.5-35B-A3B" \ --port 8001その後、新しいターミナルで、
🤔 messages = [{"role": "user", "content": "Create a Snake game."},],
print(completion.choices[0].message.content)推論(reasoning)とthinkingを有効または無効にする方法以下のコマンドでは、'true' と ' false.
top_p = 0.8 ' を互換的に使用できます。 LM StudioでThinkトグルを表示するには、当社のガイドを参照してください
--chat-template-kwargs '{"enable_thinking":false}' もしあなたが thinking / reasoningを無効にするには、llama-server内で次を使用してください: Powershellを使っている場合は、次を使用してください:
top_p = 0.8 またはPowerShellでは次を使用してください: LM StudioでThinkトグルを表示するには、当社のガイドを参照してください
--chat-template-kwargs '{"enable_thinking":false}' もしあなたが thinking / reasoningを無効にするには、llama-server内で次を使用してください: --chat-template-kwargs "{\"enable_thinking\":true}"
'true'と'false'は互換的に使用できます。Qwen3.5の0.8B、2B、4B、9Bでは、推論(reasoning)はデフォルトで無効になっています 。有効にするには、次を使用してください:
有効にする --chat-template-kwargs "{\"enable_thinking\":true}"
WindowsまたはPowerShellでは:
--model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \

print(completion.choices[0].message.reasoning_content)
👨💻 OpenAI Codex & Claude Code ローカルのコーディングエージェントワークロードでモデルを実行するには、当社のガイドに従ってください Qwen3.5-397B-A17Bを本番用にデプロイするには、 。モデル名を希望の'Qwen3.5'バリアントに変更し、正しいQwen3.5のパラメータと使用手順に従ってください。先ほど設定したものを使用してください。
先ほどのClaude Codeの指示に従うと、次のように表示されます:

その後、例えば次のように依頼できます チェスのPythonゲームを作成してください :



🔨Qwen3.5でのツール呼び出し
Unsloth GGUFの性能がどのようになるかは、 Tool Calling Guide ツール呼び出しの詳細についてはを参照してください。新しいターミナルで(tmuxを使用している場合はCTRL+B+D)、2つの数値を加える、Pythonコードを実行する、Linux関数を実行するなどのツールを作成します:
その後、以下の関数を使用します(コピーして貼り付けて実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:
Qwen3.5を次のように起動した後、 Qwen3.5-397B-A17Bを本番用にデプロイするには、 次のように Qwen3.5 または参照してください Tool Calling Guide 詳細については、その後いくつかのツール呼び出しを行うことができます。
📊 ベンチマーク
Unsloth GGUF ベンチマーク
Qwen3.5-35B Unsloth ダイナミック量子化を更新しました ほぼすべての点で最先端(SOTA)です 我々は150以上のKLダイバージェンスベンチマークを実施し、合計で 9TBのGGUF。すべての研究成果をアップロードしました。また、 ツール呼び出し チャットテンプレート バグを修正しました (すべての量子化アップローダーに影響)
すべてのGGUFは現在、 改善された量子化 アルゴリズムで更新されています。
すべては当社の 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、およびツール呼び出しのユースケースでいくつかの改善が見られます。
Qwen3.5-35B-A3B の GGUF は新しい修正を使用するように更新されました(112B、27B はまだ変換中で、更新後に再ダウンロードしてください)
99.9% の KL ダイバージェンスは最先端を示しています UD-Q4_K_XL、IQ3_XXS などのパレートフロンティア上で。
MXFP4 の廃止 すべての GGUF 量子化から: Q2_K_XL、Q3_K_XL、Q4_K_XL(純粋な MXFP4_MOE を除く)。


詳しい QWEN3.5 の分析とベンチマークはこちらをお読みください:
Qwen3.5 GGUFベンチマークQwen3.5-397B-A17B ベンチマーク

Benjamin Marie(サードパーティ)がベンチマークを実施しました Qwen3.5-397B-A17B Unsloth GGUF を使用して、 750プロンプトの混合スイートで (LiveCodeBench v6、MMLU Pro、GPQA、Math500)、両方を報告しています 全体的な精度 および 相対誤差の増加 (量子化モデルが元のモデルと比べてどれだけ多く誤りを犯すか)。
主要な結果(精度;元のモデルとの変化;相対誤差の増加):
元の重み: 81.3%
UD-Q4_K_XL: 80.5% (−0.8 ポイント;相対誤差 +4.3%)
UD-Q3_K_XL: 80.7% (−0.6 ポイント;相対誤差 +3.5%)
UD-Q4_K_XL および UD-Q3_K_XL 元のモデルに非常に近いままで、 このスイートで1ポイント未満の精度低下にとどまります これはBenが示唆しているように、あなたが〜できることを意味します メモリ使用量を大幅に削減する (約500 GB 少なく)テストされたタスクで実用的な損失がほとんどないかまったくないままです。
選び方: ここでQ3がQ4よりわずかに高得点なのは、この規模では通常の実行間のばらつきとして完全にあり得るため、 このベンチマークでは Q3 と Q4 を実質的に同等の品質として扱ってください :
選択してください Q3 もしあなたが望むなら 最小のフットプリント/最高のメモリ節約
選択してください Q4 もしあなたが望むなら やや保守的な オプションで 類似した 結果
ここに挙げたすべての量子化は我々の動的手法を利用しています。UD-IQ2_M でさえも 同じ動的手法を使用していますが、変換プロセスは UD-Q2-K-XL と異なります ここで K-XL は通常よりも高速です サイズが大きくても、そのため 同じ動的手法を使用していますが、変換プロセスは がより良い性能を示すことがあります 同じ動的手法を使用していますが、変換プロセスは より良く動作するかもしれません ここで K-XL は通常よりも高速です.
公式 Qwen ベンチマーク
Qwen3.5-35B-A3B、27B および 122B-A10B ベンチマーク

Qwen3.5-4B および 9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

最終更新
役に立ちましたか?

