💜Qwen3.5 - ローカル実行ガイド
新しい Qwen3.5 LLM をローカルデバイスで実行しましょう。Medium: Qwen3.5-35B-A3B、27B、122B-A10B、Small: Qwen3.5-0.8B、2B、4B、9B、397B-A17B を含みます!
Qwen3.5 は Alibaba の新しいモデルファミリーで、Qwen3.5-35B-A3B、 27B, 122B-A10B および 397B-A17B、そして新しい Small シリーズ: Qwen3.5-0.8B、2B、4B、9B です。このマルチモーダル・ハイブリッド推論 LLM は、自身のサイズに対して最強クラスの性能を発揮します。 256K のコンテキスト を 201 言語にわたってサポートし、 思考 + 非思考の両モードを備え、エージェント的コーディング、ビジョン、チャット、長文コンテキストのタスクに優れています。35B と 27B のモデルは 22GB の Mac / RAM デバイスで動作します。すべての GGUF をこちらで確認.
3月17日 अपडेट: 現在、Qwen3.5 を Unsloth Studio.
3月5日更新: Qwen3.5-35B, 27B, 122B および 397B.
すべての GGUF が、 改善された量子化 アルゴリズムで更新されました。
すべてに私たちの 新しい imatrix データを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースで改善が見られます。
ツール呼び出しが改善 されました。これはチャットテンプレートの修正に続くものです。 修正は共通 であり、 任意の Qwen3.5 形式および 任意の アップローダーに適用されます。
新しい GGUF ベンチマークを確認 して、Unsloth の性能結果と私たちの MXFP4 調査.
3 つの Qwen3.5 GGUF から MXFP4 レイヤーを廃止します: Q2_K_XL、Q3_K_XL、Q4_K_XL。
すべてのアップロードは Unsloth の Dynamic 2.0 を使用して、SOTA の量子化性能を実現しています。つまり、4-bit では重要なレイヤーが 8 または 16-bit にアップキャストされています。Day 0 でのアクセスを提供してくれた Qwen に感謝します。 ファインチューニング Qwen3.5 も Unsloth で行えます。
思考の有効化/無効化については Qwen3.5を参照してください。Qwen3.5 Small モデルでは既定で無効です。
Unsloth Studio で実行35B-A3B27B122B-A10B397B-A17BファインチューニングQwen3.5 Small
⚙️ 使用ガイド
表: 推論ハードウェア要件 (単位 = 合計メモリ: RAM + VRAM、または統合メモリ)
最高の性能を得るには、利用可能な総メモリ (VRAM + システム RAM) が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD へのオフロードで実行できますが、推論は遅くなります。
の間では、 27B および 35B-A3B若干より正確な結果が欲しく、デバイスに収まらない場合は 27B を使ってください。推論を大幅に高速化したいなら 35B-A3B を選んでください。
推奨設定
最大コンテキストウィンドウ:
262,144(YaRN により 1M まで拡張可能)presence_penalty = 0.0 から 2.0既定ではオフですが、繰り返しを減らすために使えます。ただし、値を高くしすぎると 性能がわずかに低下する十分な出力長:
32,768トークンがあれば、ほとんどのクエリに対応できます
意味不明な出力になる場合、コンテキスト長が短すぎる可能性があります。あるいは、 --cache-type-k bf16 --cache-type-v bf16 を試すと改善するかもしれません。
Qwen3.5 はハイブリッド推論なので、思考モードと非思考モードでは設定が異なります:
思考モード:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = 無効または 1.0
repeat penalty = 無効または 1.0
一般的なタスク向けの思考モード:
正確なコーディングタスク向けの思考モード:
Instruct (非思考) モードの設定:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = 無効または 1.0
repeat penalty = 無効または 1.0
思考を 無効化 / 推論を無効化するには、 --chat-template-kwargs '{"enable_thinking":false}'
もし Windows PowerShell を使っているなら、次を使用: --chat-template-kwargs "{\"enable_thinking\":false}"
'true' と 'false' は互換的に使用できます。
Qwen3.5 0.8B、2B、4B、9B では、推論は既定で無効です。有効にするには次を使用: --chat-template-kwargs '{"enable_thinking":true}'
一般的なタスク向けの Instruct (非思考) :
推論タスク向けの Instruct (非思考) :
Qwen3.5 推論チュートリアル:
Qwen3.5 は多様なサイズがあるため、すべての推論ワークロードで Dynamic 4-bit を使用します MXFP4_MOE GGUF バリアントを使用します。指定モデルの手順に移動するには下をクリックしてください:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall (0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF のアップロード:
presence_penalty = 0.0 から 2.0 既定ではオフですが、繰り返しを減らすために使えます。ただし、値を高くしすぎると 性能がわずかに低下します。
現在、別々の mmproj 画像ファイルがあるため、Qwen3.5 の GGUF は Ollama では動作しません。llama.cpp 互換のバックエンドを使用してください。
🦥 Unsloth Studio ガイド
このチュートリアルでは、 Unsloth Studioを使用します。これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio を使えば、 Mac、Windows、Linux 上でモデルをローカル実行でき、さらに:
検索、ダウンロード、 GGUF を実行 および safetensor モデル
比較 モデルを 並べて表示
自己修復 ツール呼び出し + ウェブ検索
コード実行 (Python、Bash)
自動推論 パラメータ調整 (temp、top-p など)
LLM を学習 VRAM を 70% 少なくして 2 倍高速

Unsloth Studio のセットアップ (1回のみ)
セットアップでは自動的に Node.js (nvm 経由) をインストールし、フロントエンドをビルドし、すべての Python 依存関係をインストールし、CUDA サポート付きで llama.cpp をビルドします。
初回インストールには 5〜10 分かかる場合があります。 llama.cpp がバイナリをコンパイルする必要があるためで、これは正常です。中止しないでください。
WSL ユーザー: 以下の sudo パスワードの入力を求められ、ビルド依存関係をインストールします (cmake, git, libcurl4-openssl-dev).
Qwen3.5 を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶための簡単なオンボーディングウィザードが表示されます。いつでもスキップできます。
次に Studio Chat タブへ移動し、検索バーで Qwen3.5 を検索して、希望するモデルと量子化をダウンロードしてください。

Qwen3.5 を実行
Unsloth Studio を使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細については、 Unsloth Studio 推論ガイド.

🦙 Llama.cpp ガイド
Qwen3.5-35B-A3B
このガイドでは、Dynamic 4-bit を使用します。これは 24GB RAM / Mac デバイスで高速推論に非常に適しています。モデルは F16 の完全精度でも約 72GB しかないため、性能をあまり気にする必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF
このチュートリアルでは、 llama.cpp を使用して、特に CPU を持っている場合の高速ローカル推論を行います。
最新の llama.cpp を取得 GitHub はこちら。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスでは、次を設定し -DGGML_CUDA=OFF その後は通常通り続けてください。Metal サポートは既定で有効です。
モデルを直接読み込むために llama.cpp を使いたい場合は、以下のようにできます: (:Q4_K_M) は量子化タイプです。Hugging Face 経由でもダウンロードできます (3番目の方法)。これは次と同様です ollama run 。使用 export LLAMA_CACHE="folder" して llama.cpp に特定の場所へ保存させます。モデルの最大コンテキスト長は 256K です。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
思考モード:
正確なコーディングタスク (例: WebDev):
一般的なタスク:
非思考モード:
一般的なタスク:
推論タスク:
モデルを (をインストールした後に) ダウンロード pip install huggingface_hub hf_transfer 。Q4_K_M または次のような他の量子化版を選べます UD-Q4_K_XL 。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に、会話モードでモデルを実行します:
Qwen3.5 Small (0.8B • 2B • 4B • 9B)
Qwen3.5 0.8B、2B、4B、9B では、 推論は無効です 既定で。有効にするには次を使用: --chat-template-kwargs '{"enable_thinking":true}'
Windows では次を使用: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 Small シリーズは非常に小さいため、スクリプト内のモデル名を目的のバリアントに変更するだけで十分です。このガイドでは 9B パラメータ版を使用します。ほぼ完全精度で全部を実行するには、12GB の RAM / VRAM / 統合メモリ デバイスが必要です。GGUF:
最新の llama.cpp を取得 GitHub はこちら。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に。GPU がない場合、または CPU 推論だけを使いたい場合です。
モデルを直接読み込むために llama.cpp モデルを直接読み込むために ollama run 。使用 export LLAMA_CACHE="folder" して llama.cpp に特定の場所へ保存させます。モデルの最大コンテキスト長は 256K です。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
9B 以外の別バリアントを使うには、'9B' を 0.8B、2B、4B などに変更できます。
思考モード (既定では無効)
Qwen3.5 Small モデルでは思考が既定で無効です。有効にするには llama-server を使用します。
一般的なタスク:
9B 以外の別バリアントを使うには、'9B' を 0.8B、2B、4B などに変更できます。
非思考モードは既定で既に有効です
一般的なタスク:
推論タスク:
モデルを (をインストールした後に) ダウンロード pip install huggingface_hub hf_transfer 。Q4_K_M または次のような他の量子化版を選べます UD-Q4_K_XL 。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に、会話モードでモデルを実行します:
Qwen3.5-27B
このガイドでは、18GB RAM / Mac デバイスで高速推論に非常に適した Dynamic 4-bit を使用します。GGUF: Qwen3.5-27B-GGUF
最新の llama.cpp を取得 GitHub はこちら。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に。GPU がない場合、または CPU 推論だけを使いたい場合です。
モデルを直接読み込むために llama.cpp を使いたい場合は、以下のようにできます: (:Q4_K_M) は量子化タイプです。Hugging Face 経由でもダウンロードできます (3番目の方法)。これは次と同様です ollama run 。使用 export LLAMA_CACHE="folder" して llama.cpp に特定の場所へ保存させます。モデルの最大コンテキスト長は 256K です。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
思考モード:
正確なコーディングタスク (例: WebDev):
一般的なタスク:
非思考モード:
一般的なタスク:
推論タスク:
モデルを (をインストールした後に) ダウンロード pip install huggingface_hub hf_transfer )。次を選べます MXFP4_MOE または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に、会話モードでモデルを実行します:
Qwen3.5-122B-A10B
このガイドでは、70GB RAM / Mac デバイスで高速推論に非常に適した Dynamic 4-bit を使用します。GGUF: Qwen3.5-122B-A10B-GGUF
最新の llama.cpp を取得 GitHub はこちら。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に。GPU がない場合、または CPU 推論だけを使いたい場合です。
モデルを直接読み込むために llama.cpp を使いたい場合は、以下のようにできます: (:Q4_K_M) は量子化タイプです。Hugging Face 経由でもダウンロードできます (3番目の方法)。これは次と同様です ollama run 。使用 export LLAMA_CACHE="folder" して llama.cpp に特定の場所へ保存させます。モデルの最大コンテキスト長は 256K です。
ユースケースに応じて、以下のいずれかのコマンドに従ってください:
思考モード:
正確なコーディングタスク (例: WebDev):
一般的なタスク:
非思考モード:
一般的なタスク:
推論タスク:
モデルを (をインストールした後に) ダウンロード pip install huggingface_hub hf_transfer )。次を選べます MXFP4_MOE (dynamic 4bit) または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に、会話モードでモデルを実行します:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B は Gemini 3 Pro、Claude Opus 4.5、GPT-5.2 と同じ性能帯です。完全な 397B チェックポイントはディスク上で約 807GB ですが、 Unsloth の 397B GGUF を使えば、次のように実行できます:
3-bit: は 192GB RAM システム (例: 192GB の Mac) に収まります
4-bit (MXFP4): は 256GB RAM。Unsloth の 4-bit dynamic UD-Q4_K_XL は ディスク上で約 214GB で、 256GB の M3 Ultra
で動作します 単一の 24GB GPU + 256GB システム RAM 経由で MoE オフロードし、 25+ トークン/秒
8-bit が必要です 約 512GB の RAM/VRAM
参照 397B の量子化ベンチマーク で、Unsloth GGUF の性能をご覧ください。
最新の llama.cpp を取得 GitHub はこちら。以下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に。GPU がない場合、または CPU 推論だけを使いたい場合です。
モデルを直接読み込むために llama.cpp を使いたい場合は、以下のようにできます: (:Q4_K_M) は量子化タイプです。Hugging Face 経由でもダウンロードできます (3番目の方法)。これは次と同様です ollama run 。使用 export LLAMA_CACHE="folder" して llama.cpp して特定の場所に保存します。モデルの最大コンテキスト長は 256K までであることを忘れないでください。
これを 思考 モード:
これを 非思考 モード:
モデルを (をインストールした後に) ダウンロード pip install huggingface_hub hf_transfer )。次を選べます MXFP4_MOE (dynamic 4bit) または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスを取るため、少なくとも 2-bit dynamic quant の使用を推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XET デバッグ
編集できます --threads 32 を CPU スレッド数として、 --ctx-size 16384 をコンテキスト長として、 --n-gpu-layers 2 を GPU オフロードするレイヤー数として。GPU のメモリ不足が起きたら調整してみてください。CPU のみで推論する場合はこれも削除してください。
👾 LM Studio ガイド
このガイドでは、 LM Studioを使用します。LLM を実行するための統合 UI です。'💡Thinking' と 'Non-thinking' の切り替えは既定では表示されない場合があるため、動作させるには追加手順が必要です。
ダウンロード LM Studio をお使いのデバイス向けに行ってください。その後 Model Search を開き、'unsloth/qwen3.5' を検索して、希望する GGUF (量子化版) をダウンロードします。

Thinking 切り替えの手順: ダウンロード後、ターミナル / PowerShell を開いて次を試してください: lms --help。その後、LM Studio が多くのコマンドとともに通常表示されるなら、次を実行:
これにより yaml ファイルが取得され、GGUF に '💡Thinking' と 'Non-thinking' の切り替え表示が有効になります。 4b を希望の量子化版に変更できます。

それ以外の場合は、 LM Studio のページ に行って、特定の yaml ファイルをダウンロードできます。
LM Studio を再起動してから、ダウンロードしたモデルを読み込みます (ダウンロードした特定の thinking 切り替え付き)。これで Thinking 切り替えが有効になっているはずです。 正しいパラメータ.

🦙 Llama-server によるサービング & OpenAI の completion ライブラリ
Qwen3.5-397B-A17B を本番環境に展開するには、 llama-server を使用します。tmux 経由などで新しいターミナルを開き、次でモデルを展開します:
次に新しいターミナルで、 pip install openaiを実行した後、次を行います:
🤔 推論と思考を有効化/無効化する方法
以下のコマンドでは 'true' と 'false' を互換的に使用できます。
Unsloth Studio 思考モデル用の 'Think' 切り替えを自動で備えています。
LM Studio で Think 切り替えを使うには、 ガイドをお読みください.

思考を 無効化 thinking / reasoning を使用、llama-server 内では:
もし Windows または Powershell では、次を使用: --chat-template-kwargs "{\"enable_thinking\":false}"
思考を 有効化 thinking / reasoning を使用、llama-server 内では:
もし Windows または Powershell では、次を使用: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 0.8B、2B、4B、9B では、推論は既定で無効です。有効にするには次を使用: --chat-template-kwargs '{"enable_thinking":true}'
そして Windows または Powershell では: --chat-template-kwargs "{\"enable_thinking\":true}"
例として、Qwen3.5-9B で thinking を有効にするには(デフォルトでは無効です):
そして Python では:

👨💻 OpenAI Codex & Claude Code
ローカルのコーディングエージェント的なワークロードを通じてモデルを実行するには、 こちらのガイドに従ってください。モデル名を希望する 'Qwen3.5' のバリエーションに変更し、正しい Qwen3.5 のパラメータと使用方法に従っていることを確認してください。 llama-server さっき設定したものを使ってください。
たとえば Claude Code の手順に従うと、次のように表示されます:

それから、例えばこう尋ねられます チェスの Python ゲームを作成して :



🔨Qwen3.5 でのツール呼び出し
参照 Tool Calling Guide ツール呼び出しの方法の詳細について。新しいターミナルで(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:
その後、以下の関数(コピーして貼り付けて実行)を使います。これにより関数呼び出しが自動的に解析され、どのモデルに対しても OpenAI エンドポイントが呼び出されます:
Qwen3.5 を起動した後、 llama-server のように Qwen3.5 または Tool Calling Guide を参照すると、さらに詳しく見られます。その後、いくつかのツール呼び出しを行えます。
📊 ベンチマーク
Unsloth GGUF ベンチマーク
Qwen3.5-35B の Unsloth Dynamic quant を更新しました SOTA であり ほぼすべてのビットでそうです。150 回以上の KL Divergence ベンチマークを実施し、合計 9TB の GGUFを扱いました。すべての研究成果物を公開しました。また、 ツール呼び出し チャットテンプレート のバグを修正しました (すべての量子化アップローダーに影響)
すべての GGUF が、 改善された量子化 アルゴリズムで更新されました。
すべてに私たちの 新しい imatrix データを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースで改善が見られます。
Qwen3.5-35B-A3B の GGUF は、新しい修正を使うよう更新されています(112B、27B はまだ変換中です。更新後に再ダウンロードしてください)
99.9% の KL Divergence は SOTA を示します UD-Q4_K_XL、IQ3_XXS などでパレートフロンティア上にあります。
MXFP4 を廃止 すべての GGUF quant から: Q2_K_XL、Q3_K_XL、Q4_K_XL。ただし純粋な MXFP4_MOE を除く。


QWEN3.5 の詳細な分析 + ベンチマークはこちらをお読みください:
Qwen3.5 GGUF ベンチマークQwen3.5-397B-A17B ベンチマーク

Benjamin Marie(サードパーティ)がベンチマークを実施 Qwen3.5-397B-A17B Unsloth GGUF を使用して 750 プロンプトの混合スイートで (LiveCodeBench v6、MMLU Pro、GPQA、Math500)、以下の両方を報告: 全体精度 および 相対誤差増加 (量子化モデルが元モデルよりどれだけ多く間違えるか)。
主な結果(精度;元モデルからの変化;相対誤差増加):
元の重み: 81.3%
UD-Q4_K_XL: 80.5% (−0.8 ポイント;+4.3% の相対誤差増加)
UD-Q3_K_XL: 80.7% (−0.6 ポイント;+3.5% の相対誤差増加)
UD-Q4_K_XL および UD-Q3_K_XL は元のものに非常に近いままで、 精度低下は 1 ポイント未満 このスイートでは、Ben が示唆するように、 メモリ使用量を大幅に削減でき (約 500 GB 少なく)テストしたタスクで実質的な損失はほとんど、または全くありません。
選び方: この規模では Q3 が Q4 よりわずかに高く出るのは、通常の実行ごとのばらつきとして十分あり得るため、 Q3 と Q4 は実質的に同等の品質と見なしてください このベンチマークでは:
選ぶ Q3 もしあなたが 最小のフットプリント / 最大のメモリ節約
選ぶ Q4 もしあなたが やや保守的な オプションを望み、 似た 結果を求めるなら
記載されているすべての quant は、私たちの動的手法を利用しています。 UD-IQ2_M も同じ動的手法を使用していますが、変換プロセスは UD-Q2-K-XL と異なります。K-XL は通常、 UD-IQ2_M より大きくてもより高速なので、そのため UD-IQ2_M のほうが良い性能を示すことがあります。 UD-Q2-K-XL.
公式 Qwen ベンチマーク
Qwen3.5-35B-A3B、27B および 122B-A10B のベンチマーク

Qwen3.5-4B および 9B のベンチマーク

Qwen3.5-397B-A17B ベンチマーク

最終更新
役に立ちましたか?


