💜Qwen3.5 - ローカルで実行する方法ガイド
Qwen3.5 の新しい LLM(Medium: Qwen3.5-35B-A3B, 27B, 122B-A10B、Small: Qwen3.5-0.8B, 2B, 4B, 9B および 397B-A17B)をローカルデバイスで実行しましょう!
Qwen3.5はアリババの新しいモデルファミリーで、Qwen3.5-35B-A3B、 27B, 122B-A10Bと 397B-A17Bおよび新しい Small シリーズ:Qwen3.5-0.8B、2B、4B、9B。マルチモーダルハイブリッド推論LLMはサイズに対して最も強力な性能を発揮します。これらは 256Kコンテキスト 201言語にわたりサポートし、 思考 + 非思考、エージェント的コーディング、ビジョン、チャット、長文コンテキストタスクで優れています。35Bと27Bモデルは22GBのMac/ RAMデバイスで動作します。すべての GGUFはこちら.
3月5日更新: Qwen3.5-を再ダウンロードしてください35B, 27B, 122B および 397B.
すべてのGGUFは現在、 改良された量子化 アルゴリズムで更新されています。
すべては私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。
ツール呼び出しが改善されました 当社のチャットテンプレート修正に続いて。 修正は全体的で に適用されます 任意の Qwen3.5形式および 任意の アップローダーに。
私たちは3つのQwen3.5 GGUFからMXFP4レイヤーを廃止します:Q2_K_XL、Q3_K_XL、Q4_K_XL。
すべてのアップロードはUnslothを使用します Dynamic 2.0 SOTAの量子化性能のために—したがって4ビットでは重要なレイヤーが8ビットまたは16ビットにアップキャストされています。日付初日にUnslothへアクセスを提供してくれたQwenに感謝します。あなたはまた 微調整 Qwen3.5 をUnslothで行うことができます。
思考を有効または無効にするにはこちらを参照してください Qwen3.5。Qwen3.5 Smallモデルはデフォルトで無効になっています。詳細は LM Studioガイド でThinkトグルを有効にする方法を参照してください。
35B-A3B27B122B-A10B397B-A17BQwen3.5を微調整する0.8B • 2B • 4B • 9B
⚙️ 使用ガイド
表:推論ハードウェア要件 (単位 = 合計メモリ:RAM + VRAM、またはユニファイドメモリ)
最高のパフォーマンスを得るには、使用可能な合計メモリ(VRAM + システムRAM)がダウンロードしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合、llama.cppはSSD/HDDオフローディングを介してまだ実行できますが、推論は遅くなります。
の間では 27B および 35B-A3Bデバイスに収まらず、わずかに正確な結果を望むなら27Bを使用してください。はるかに高速な推論を望むなら35B-A3Bを選んでください。
推奨設定
最大コンテキストウィンドウ:
262,144(YaRNを介して1Mまで拡張可能)presence_penalty = 0.0 から 2.0デフォルトではこれはオフですが、繰り返しを減らすためにこれを使用できます。ただし高い値を使用すると 性能がわずかに低下する適切な出力長:
32,768ほとんどのクエリに対するトークン数
もし意味不明な出力が出る場合、コンテキスト長が短すぎる可能性があります。あるいは次を試してください --cache-type-k bf16 --cache-type-v bf16 これが役立つかもしれません。
Qwen3.5はハイブリッド推論のため、思考モードと非思考モードは異なる設定を持ちます:
思考モード:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
リピートペナルティ = 無効 または 1.0
リピートペナルティ = 無効 または 1.0
一般タスク向けの思考モード:
精密なコーディングタスク向けの思考モード:
Instruct(非思考)モードの設定:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
リピートペナルティ = 無効 または 1.0
リピートペナルティ = 無効 または 1.0
するには 思考/推論を無効にするには、次を使用してください --chat-template-kwargs '{"enable_thinking":false}'
もしあなたが Windows Powershellを使用しているなら: --chat-template-kwargs "{\"enable_thinking\":false}"
'true' と 'false' は相互に交換して使用できます。
Qwen3.5の0.8B、2B、4B、9Bでは、推論はデフォルトで無効になっています。有効にするには、次を使用してください: --chat-template-kwargs '{"enable_thinking":true}'
一般タスク向けのInstruct(非思考):
推論タスク向けのInstruct(非思考):
Qwen3.5推論チュートリアル:
Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードでDynamic 4-bitを使用します MXFP4_MOE GGUFバリアントを使用します。下のリンクをクリックして指定モデルの説明に移動してください:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUFのアップロード:
presence_penalty = 0.0 から 2.0 デフォルトではこれはオフですが、繰り返しを減らすためにこれを使用できます。ただし高い値を使用すると 性能がわずかに低下します。
現在、Qwen3.5 GGUFは別個のmmprojビジョンファイルのためOllamaで動作しません。llama.cpp互換のバックエンドを使用してください。
Qwen3.5-35B-A3B
このガイドでは、24GB RAMのMacデバイスで高速な推論に適したDynamic 4-bitを利用します。モデルは完全なF16精度で約72GB程度なので、パフォーマンスについてあまり心配する必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF
🦙 Llama.cppガイド
これらのチュートリアルでは、私たちは llama.cpp を使用して高速なローカル推論を行います。特にCPUをお持ちの場合に便利です。
最新のものを入手してください llama.cpp こちらの GitHubで。以下のビルド手順に従うこともできます。GPUがない、またはCPU推論のみを希望する場合は -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接使用してモデルをロードしたい場合は、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは llama.cpp ollama run に類似しています。 使用するには export LLAMA_CACHE="folder" を使用して強制的に llama.cpp 特定の場所に保存するようにしてください。モデルは最大256Kのコンテキスト長を持ちます。
ユースケースに応じて、以下の特定コマンドのいずれかに従ってください:
思考モード:
精密なコーディング作業(例:WebDev):
一般的な作業:
非思考モード:
一般的な作業:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョンを選択できます。 UD-Q4_K_XL . 少なくとも2ビットのダイナミック量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。ダウンロードが停止する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
その後、会話モードでモデルを実行します:
Qwen3.5 Small(0.8B • 2B • 4B • 9B)
Qwen3.5 の 0.8B、2B、4B、9B について、 推論(reasoning)は無効になっています デフォルトでは。有効にするには、次を使用してください: --chat-template-kwargs '{"enable_thinking":true}'
Windowsでは次を使用します: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 Small シリーズは非常に小さいため、スクリプト内のモデル名を目的のバリアントに変更するだけで済みます。本ガイドでは特に9Bパラメータ版を使用します。ほぼフル精度で実行するには、RAM / VRAM / 統一メモリデバイスが12GB必要です。GGUFファイル:
最新のものを入手してください llama.cpp こちらの GitHubで。以下のビルド手順に従うこともできます。GPUがない、またはCPU推論のみを希望する場合は -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接使用してモデルをロードしたい場合は、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは llama.cpp モデルを直接読み込むには、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは以下に類似しています に類似しています。 使用するには export LLAMA_CACHE="folder" を使用して強制的に llama.cpp 特定の場所に保存するようにしてください。モデルは最大256Kのコンテキスト長を持ちます。
ユースケースに応じて、以下の特定コマンドのいずれかに従ってください:
9B以外のバリアントを使用する場合は、'9B' を 0.8B、2B、4B 等に変更できます。
Thinking モード(デフォルトで無効)
Qwen3.5 Small モデルはデフォルトで Thinking を無効にしています。有効にするには llama-server を使用してください。
一般的な作業:
9B以外のバリアントを使用する場合は、'9B' を 0.8B、2B、4B 等に変更できます。
非Thinkingモードは既にデフォルトでオンです
一般的な作業:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer をインストールしてください)。Q4_K_Mや他の量子化バージョンを選択できます。 UD-Q4_K_XL . 少なくとも2ビットのダイナミック量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。ダウンロードが停止する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
その後、会話モードでモデルを実行します:
Qwen3.5-27B
本ガイドでは、18GB RAM / Mac デバイスで高速推論に適したダイナミック4ビットを使用します。GGUF: Qwen3.5-27B-GGUF
最新のものを入手してください llama.cpp こちらの GitHubで。以下のビルド手順に従うこともできます。GPUがない、またはCPU推論のみを希望する場合は -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接使用してモデルをロードしたい場合は、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは llama.cpp ollama run に類似しています。 使用するには export LLAMA_CACHE="folder" を使用して強制的に llama.cpp 特定の場所に保存するようにしてください。モデルは最大256Kのコンテキスト長を持ちます。
ユースケースに応じて、以下の特定コマンドのいずれかに従ってください:
思考モード:
精密なコーディング作業(例:WebDev):
一般的な作業:
非思考モード:
一般的な作業:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer )。選択できます MXFP4_MOE または他の量子化バージョン(例: UD-Q4_K_XL . 少なくとも2ビットのダイナミック量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。ダウンロードが停止する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
その後、会話モードでモデルを実行します:
Qwen3.5-122B-A10B
本ガイドでは、70GB RAM / Mac デバイスで高速推論に適したダイナミック4ビットを使用します。GGUF: Qwen3.5-122B-A10B-GGUF
最新のものを入手してください llama.cpp こちらの GitHubで。以下のビルド手順に従うこともできます。GPUがない、またはCPU推論のみを希望する場合は -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接使用してモデルをロードしたい場合は、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは llama.cpp ollama run に類似しています。 使用するには export LLAMA_CACHE="folder" を使用して強制的に llama.cpp 特定の場所に保存するようにしてください。モデルは最大256Kのコンテキスト長を持ちます。
ユースケースに応じて、以下の特定コマンドのいずれかに従ってください:
思考モード:
精密なコーディング作業(例:WebDev):
一般的な作業:
非思考モード:
一般的な作業:
推論タスク:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer )。選択できます MXFP4_MOE (ダイナミック4ビット)または他の量子化バージョン(例: UD-Q4_K_XL . 少なくとも2ビットのダイナミック量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。ダウンロードが停止する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
その後、会話モードでモデルを実行します:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B は Gemini 3 Pro、Claude Opus 4.5、GPT-5.2 と同じ性能階層にあります。フルの397Bチェックポイントはディスク上で約807GBですが、 Unsloth の 397B GGUF を使えば実行できます:
3ビット:に収まります 192GB RAM システム(例:192GB の Mac)
4ビット(MXFP4):に収まります 256GB RAM。Unsloth 4ビットダイナミック UD-Q4_K_XL は ディスク上で約214GB - 直接ロードします( 256GB M3 Ultra
で動作) 単一の24GB GPU + 256GB システムRAM で動作します 経由で MoE オフローディング、到達 1秒あたり25トークン以上
8ビット 必要とします 約512GB の RAM/VRAM が必要です
参照してください 397B の量子化ベンチマーク Unsloth の GGUF がどのように動作するかについて。
最新のものを入手してください llama.cpp こちらの GitHubで。以下のビルド手順に従うこともできます。GPUがない、またはCPU推論のみを希望する場合は -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。
直接使用してモデルをロードしたい場合は、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは llama.cpp ollama run に類似しています。 使用するには export LLAMA_CACHE="folder" を使用して強制的に llama.cpp 特定の場所に保存するには。モデルは最大で256Kのコンテキスト長しか持たないことを忘れないでください。
これに従ってください 思考 モード:
これに従ってください 非Thinking モード:
モデルをダウンロードするには(先に pip install huggingface_hub hf_transfer )。選択できます MXFP4_MOE (ダイナミック4ビット)または他の量子化バージョン(例: UD-Q4_K_XL . 少なくとも2ビットのダイナミック量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。ダウンロードが停止する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
編集できます --threads 32 CPU スレッド数の指定、 --ctx-size 16384 コンテキスト長の指定、 --n-gpu-layers 2 GPU オフローディングするレイヤー数の指定。GPU がメモリ不足になる場合はこの値を調整してみてください。CPUのみの推論の場合はこれを削除してください。
👾 LM Studio ガイド
本ガイドでは、次を使用します LM Studio、LLM を実行するための統一 UI インターフェースです。'💡Thinking' と 'Non-thinking' の切り替えはデフォルトで表示されないことがあるため、動作させるにはいくつか追加の手順が必要です。
ダウンロード LM Studio お使いのデバイス用。次に Model Search を開き、'unsloth/qwen3.5' を検索して、希望する GGUF(量子化)をダウンロードしてください。

Thinking 切り替え手順: ダウンロード後、ターミナル / PowerShell を開いて次を試してください: lms --help。LM Studio が多くのコマンドで正常に表示される場合、次を実行します:
これにより、ダウンロードした GGUF に '💡Thinking' と 'Non-thinking' の切り替えを表示させる yaml ファイルが取得されます。変更することができます 4b を希望の量子化に変更してください。

あるいは、次に行くこともできます 当社の LM Studio ページ そして特定の yaml ファイルをダウンロードしてください。
LM Studio を再起動し、ダウンロードしたモデル(思考切り替えが含まれるもの)をロードします。これで Thinking 切り替えが有効になっているはずです。忘れずに 正しいパラメータ.

🦙 Llama-server の提供 & OpenAI の completion ライブラリ
Qwen3.5-397B-A17B を本番環境でデプロイするために、我々は次を使用します llama-server 新しいターミナルで(例えば tmux を通して)、次でモデルをデプロイします:
その後、新しいターミナルで、次を行った後に pip install openai、次を実行します:
🤔 推論(reasoning)とThinking を有効または無効にする方法
以下のコマンドでは、'true' と 'false' を互換的に使用できます。にするには LM Studio の Think 切り替えについては、当社のガイドを読んでください.
するには 無効にする thinking / reasoning を無効にするには、llama-server 内で次を使用します:
もしあなたが Windows または Powershell では次を使用します: --chat-template-kwargs "{\"enable_thinking\":false}"
するには 有効にする thinking / reasoning を無効にするには、llama-server 内で次を使用します:
もしあなたが Windows または Powershell では次を使用します: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5の0.8B、2B、4B、9Bでは、推論はデフォルトで無効になっています。有効にするには、次を使用してください: --chat-template-kwargs '{"enable_thinking":true}'
そして Windows または Powershell では: --chat-template-kwargs "{\"enable_thinking\":true}"
例として Qwen3.5-9B で Thinking を有効にする(デフォルトは無効):
そして Python では:

👨💻 OpenAI Codex & Claude Code
ローカルでのコード志向ワークロードでモデルを実行するには、次を行うことができます 当社のガイドに従ってください。単にモデル名 'GLM-4.7-Flash' を希望の 'Qwen3.5' バリアントに変更し、正しい Qwen3.5 のパラメータと使用手順に従っていることを確認してください。先ほど設定した llama-server を使用します。
例えば Claude Code の手順に従った後、次のように表示されます:

その後、次のように頼むことができます チェスの Python ゲームを作成して :



🔨Qwen3.5 によるツールコーリング
参照してください Tool Calling Guide ツールコーリングの詳細については。新しいターミナルで(tmux を使用している場合は CTRL+B+D を使用)、2つの数を加える、Python コードを実行する、Linux 関数を実行するなどのツールを作成します:
次に、以下の関数を使用します(コピーして貼り付けて実行)。これらは関数呼び出しを自動的に解析し、任意のモデルに対してOpenAIエンドポイントを呼び出します:
Qwen3.5を次のように起動した後、 llama-server のように Qwen3.5 または参照 Tool Calling Guide 詳しくは、いくつかのツール呼び出しを行うことができます。
📊 ベンチマーク
Unsloth GGUF ベンチマーク
Qwen3.5-35B Unsloth 動的量子化を更新しました ほぼすべての点で最先端(SOTA)になっています 150以上のKLダイバージェンスベンチマークを行い、合計で 9TBのGGUF。すべての研究成果物をアップロードしました。また、 ツール呼び出し チャットテンプレート バグ (すべての量子化アップローダーに影響)
すべてのGGUFは現在、 改良された量子化 アルゴリズムで更新されています。
すべては私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。
Qwen3.5-35B-A3BのGGUFは新しい修正を適用して更新されました(112B、27Bはまだ変換中で、更新後に再ダウンロードしてください)
99.9%のKLダイバージェンスがSOTAを示しています UD-Q4_K_XL、IQ3_XXSなどのパレートフロンティア上で。
MXFP4の引退 すべてのGGUF量子化から: Q2_K_XL, Q3_K_XL, Q4_K_XL(純粋なMXFP4_MOEは除く)。


詳細なQWEN3.5の分析とベンチマークをここで読む:
Qwen3.5 GGUF ベンチマークQwen3.5-397B-A17B ベンチマーク

Benjamin Marie(サードパーティ)がベンチマークを実施しました Qwen3.5-397B-A17B Unsloth GGUFを使用して、 750プロンプトの混合スイートで (LiveCodeBench v6、MMLU Pro、GPQA、Math500)、全体の 総合精度 および 相対誤差の増加 (量子化モデルが元のモデルに比べてどれだけ多く間違いを犯すか)。
主要な結果(精度;元のモデルに対する変化;相対誤差増加):
元の重み: 81.3%
UD-Q4_K_XL: 80.5% (−0.8ポイント;相対誤差増加+4.3%)
UD-Q3_K_XL: 80.7% (−0.6ポイント;相対誤差増加+3.5%)
UD-Q4_K_XL および UD-Q3_K_XL 元のモデルに非常に近く留まっており、 このスイートで1ポイント未満の精度低下に収まります ベンはこれにより、 メモリフットプリントを大幅に削減できるとほのめかしています (約500GB少なく)テストされたタスクにおいてほとんど実用的な損失がないままです。
選び方: ここでQ3がQ4よりわずかに高いスコアを示すのは、この規模では通常のラン間変動として十分あり得るため、 このベンチマークではQ3とQ4を実質的に同等の品質と見なしてください 。
選択: Q3 もしあなたが望むなら 最小のフットプリント / 最高のメモリ節約
選択: Q4 もしあなたが望むなら やや保守的な オプションで 類似した 結果
リストされているすべての量子化は当社の動的手法を利用しています。たとえ UD-IQ2_M も同じ動的手法を使用していますが、変換プロセスはUD-Q2-K-XLとは異なります。 UD-Q2-K-XL ここではK-XLは通常より高速であり、 UD-IQ2_M それがより大きくても、したがって UD-IQ2_M がより良い性能を示す可能性があります UD-Q2-K-XL.
公式のQwenベンチマーク
Qwen3.5-35B-A3B、27Bおよび122B-A10B ベンチマーク

Qwen3.5-4Bと9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

最終更新
役に立ちましたか?

