💜Qwen3.5 - ローカルで実行する方法ガイド
Qwen3.5 の新しい LLM(Medium: Qwen3.5-35B-A3B、27B、122B-A10B、Small: Qwen3.5-0.8B、2B、4B、9B、397B-A17B)をローカルデバイスで実行しましょう!
Qwen3.5はアリババの新しいモデルファミリーで、Qwen3.5-35B-A3B、 27B, 122B-A10Bと 397B-A17Bおよび新しい Small シリーズ:Qwen3.5-0.8B、2B、4B、9B。マルチモーダルハイブリッド推論LLMはサイズに対して最も強力な性能を発揮します。これらは 256Kコンテキスト 201言語で対応し、 思考 + 非思考、エージェント的なコーディング、ビジョン、チャット、長文コンテキストのタスクに優れています。35Bおよび27Bモデルは22GBのMac / RAMデバイスで動作します。すべてを参照 ここでのGGUF.
3月5日更新: Qwen3.5-を再ダウンロードしてください35B, 27B, 122B および 397B.
すべてのGGUFは現在、 改良された量子化 アルゴリズムで更新されています。
すべてが私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。
ツール呼び出しが改善されました チャットテンプレートの修正に続いて。 修正は普遍的で に適用されます 任意の Qwen3.5形式および 任意の アップローダーに。
新しいGGUFベンチマークを確認してください Unslothの性能結果 + 私たちの MXFP4調査.
私たちは3つのQwen3.5 GGUF(Q2_K_XL、Q3_K_XL、Q4_K_XL)からMXFP4レイヤーを撤去しています。
すべてのアップロードはUnslothを使用しています Dynamic 2.0 でSOTAの量子化性能を実現しています - したがって4ビットでは重要なレイヤーが8ビットまたは16ビットにアップキャストされています。Unslothにデイゼロアクセスを提供してくれたQwenに感謝します。あなたも 微調整 Qwen3.5 をUnslothで行うことができます。
思考を有効または無効にするには、次を参照してください Qwen3.5。Qwen3.5 Smallモデルはデフォルトで無効になっています。詳細は LM Studioガイド でThinkトグルを有効にする方法を参照してください。
35B-A3B27B122B-A10B397B-A17BQwen3.5を微調整する0.8B • 2B • 4B • 9B
⚙️ 使用ガイド
表:推論ハードウェア要件 (単位 = 合計メモリ:RAM + VRAM、またはユニファイドメモリ)
最高のパフォーマンスを得るには、利用可能な合計メモリ(VRAM + システムRAM)がダウンロードしようとしている量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合、llama.cppはSSD/HDDオフロード経由で実行できますが、推論は遅くなります。
の間では 27B および 35B-A3B、デバイスに収まらないがわずかに正確な結果が欲しい場合は27Bを使用してください。はるかに高速な推論を望む場合は35B-A3Bを選んでください。
推奨設定
最大コンテキストウィンドウ:
262,144(YaRNを使えば1Mまで拡張可能)presence_penalty = 0.0 から 2.0デフォルトではこれはオフですが、繰り返しを減らすために使用できます。ただし値を高くしすぎると パフォーマンスがやや低下する十分な出力長:
32,768ほとんどのクエリに対するトークン数
意味不明な出力が出る場合、コンテキスト長が短すぎる可能性があります。または次を試してください --cache-type-k bf16 --cache-type-v bf16 これが役立つことがあります。
Qwen3.5はハイブリッド推論であるため、思考モードと非思考モードでは設定が異なります:
思考モード:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat penalty = 無効または1.0
repeat penalty = 無効または1.0
一般タスク向け思考モード:
精密なコーディングタスク向け思考モード:
指示(非思考)モードの設定:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat penalty = 無効または1.0
repeat penalty = 無効または1.0
を 思考/推論を無効にするには、次を使用してください --chat-template-kwargs '{"enable_thinking":false}'
もしあなたが Windows Powershellを使用している場合、次を使用してください: --chat-template-kwargs "{\"enable_thinking\":false}"
'true' と 'false' は互換的に使用できます。
Qwen3.5の0.8B、2B、4B、9Bでは、推論はデフォルトで無効になっています。有効にするには、次を使用してください: --chat-template-kwargs '{"enable_thinking":true}'
指示(非思考)モード:一般タスク向け:
指示(非思考)モード:推論タスク向け:
Qwen3.5推論チュートリアル:
Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードでDynamic 4-bitを使用します MXFP4_MOE GGUFバリアントを使用します。下のリンクをクリックして指定されたモデルの説明に移動してください:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUFアップロード:
presence_penalty = 0.0 から 2.0 デフォルトではこれはオフですが、繰り返しを減らすために使用できます。ただし値を高くしすぎると パフォーマンスがわずかに低下します。
現在、個別のmmprojビジョンファイルのためにどのQwen3.5 GGUFもOllamaでは動作しません。llama.cpp互換のバックエンドを使用してください。
🦙 Llama.cppガイド
Qwen3.5-35B-A3B
このガイドでは、24GB RAM / Macデバイスで高速な推論に適したDynamic 4-bitを使用します。モデルは完全なF16精度でも約72GB程度のため、パフォーマンスについてあまり心配する必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF
これらのチュートリアルでは、私たちは llama.cpp を使用して高速なローカル推論を行います。特にCPUしかない場合に有用です。
最新のものを入手してください llama.cpp で GitHubはこちら。以下のビルド手順に従うこともできます。を変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更すると、GPUがない場合やCPU推論のみを行いたい場合に対応します。 Apple Mac / Metalデバイスの場合は、を設定し -DGGML_CUDA=OFF その後は通常どおり続けてください - Metalサポートはデフォルトで有効です。
もしあなたが直接モデルをロードするために llama.cpp を使いたい場合、以下のようにできます:( :Q4_K_M) は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは ollama run に似ています。を使用してください export LLAMA_CACHE="folder" で特定の場所に保存するように llama.cpp を強制できます。モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下の特定のコマンドのいずれかに従ってください:
思考モード:
精密なコーディングタスク(例:Web開発):
一般タスク:
非思考モード:
一般タスク:
推論タスク:
(をインストールした後)モデルをダウンロードします pip install huggingface_hub hf_transfer )。Q4_K_Mや他の量子化バージョン(例: UD-Q4_K_XL )を選択できます。サイズと精度のバランスを取るには少なくとも2ビットの動的量子化を推奨します。 UD-Q2_K_XL ダウンロードが停滞する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に会話モードでモデルを実行します:
Qwen3.5 Small(0.8B・2B・4B・9B)
Qwen3.5 0.8B、2B、4B、9Bについては、 推論(reasoning)は無効になっています デフォルトでは。有効にするには、次を使用してください: --chat-template-kwargs '{"enable_thinking":true}'
Windowsでは次を使用します: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 Smallシリーズは非常に小さいため、スクリプト内のモデル名を希望するバリアントに変更するだけで済みます。本ガイドでは9Bパラメータバリアントを使用します。ほぼフル精度で実行するには、RAM/VRAM/統合メモリデバイスが12GB必要です。GGUF:
最新のものを入手してください llama.cpp で GitHubはこちら。以下のビルド手順に従うこともできます。を変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更すると、GPUがない場合やCPU推論のみを行いたい場合に対応します。
もしあなたが直接モデルをロードするために llama.cpp モデルを直接読み込むには、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からもダウンロードできます。これは次に類似しています: ollama run に似ています。を使用してください export LLAMA_CACHE="folder" で特定の場所に保存するように llama.cpp を強制できます。モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下の特定のコマンドのいずれかに従ってください:
9B以外のバリアントを使用するには、スクリプト内の '9B' を 0.8B、2B、4B 等に変更してください。
Thinkingモード(デフォルトで無効)
Qwen3.5 SmallモデルはデフォルトでThinkingを無効にしています。有効にするには llama-server を使用してください。
一般タスク:
9B以外のバリアントを使用するには、スクリプト内の '9B' を 0.8B、2B、4B 等に変更してください。
非Thinkingモードはデフォルトで既にオンです
一般タスク:
推論タスク:
(をインストールした後)モデルをダウンロードします pip install huggingface_hub hf_transfer )。Q4_K_Mや他の量子化バージョン(例: UD-Q4_K_XL )を選択できます。サイズと精度のバランスを取るには少なくとも2ビットの動的量子化を推奨します。 UD-Q2_K_XL ダウンロードが停滞する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に会話モードでモデルを実行します:
Qwen3.5-27B
本ガイドでは、18GB RAMのMacデバイスで高速推論に適した動的4ビットを使用します。GGUF: Qwen3.5-27B-GGUF
最新のものを入手してください llama.cpp で GitHubはこちら。以下のビルド手順に従うこともできます。を変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更すると、GPUがない場合やCPU推論のみを行いたい場合に対応します。
もしあなたが直接モデルをロードするために llama.cpp を使いたい場合、以下のようにできます:( :Q4_K_M) は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは ollama run に似ています。を使用してください export LLAMA_CACHE="folder" で特定の場所に保存するように llama.cpp を強制できます。モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下の特定のコマンドのいずれかに従ってください:
思考モード:
精密なコーディングタスク(例:Web開発):
一般タスク:
非思考モード:
一般タスク:
推論タスク:
(をインストールした後)モデルをダウンロードします pip install huggingface_hub hf_transfer )。次のものを選択できます MXFP4_MOE または他の量子化バージョン(例: UD-Q4_K_XL )を選択できます。サイズと精度のバランスを取るには少なくとも2ビットの動的量子化を推奨します。 UD-Q2_K_XL ダウンロードが停滞する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に会話モードでモデルを実行します:
Qwen3.5-122B-A10B
本ガイドでは、70GB RAMのMacデバイスで高速推論に適した動的4ビットを使用します。GGUF: Qwen3.5-122B-A10B-GGUF
最新のものを入手してください llama.cpp で GitHubはこちら。以下のビルド手順に従うこともできます。を変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更すると、GPUがない場合やCPU推論のみを行いたい場合に対応します。
もしあなたが直接モデルをロードするために llama.cpp を使いたい場合、以下のようにできます:( :Q4_K_M) は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは ollama run に似ています。を使用してください export LLAMA_CACHE="folder" で特定の場所に保存するように llama.cpp を強制できます。モデルは最大256Kのコンテキスト長を持っています。
ユースケースに応じて、以下の特定のコマンドのいずれかに従ってください:
思考モード:
精密なコーディングタスク(例:Web開発):
一般タスク:
非思考モード:
一般タスク:
推論タスク:
(をインストールした後)モデルをダウンロードします pip install huggingface_hub hf_transfer )。次のものを選択できます MXFP4_MOE (動的4ビット)や他の量子化バージョン(例: UD-Q4_K_XL )を選択できます。サイズと精度のバランスを取るには少なくとも2ビットの動的量子化を推奨します。 UD-Q2_K_XL ダウンロードが停滞する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
次に会話モードでモデルを実行します:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17BはGemini 3 Pro、Claude Opus 4.5、GPT-5.2と同等の性能クラスです。フルの397Bチェックポイントはディスク上で約807GBですが、 Unslothの397B GGUF を使えば次のように実行できます:
3ビット:に収まります 192GB RAM システム(例:192GBのMac)
4ビット(MXFP4):に収まります 256GB RAM。Unslothは 4ビット動的 UD-Q4_K_XL は ディスク上で約214GBです - 直接ロードします( 256GB M3 Ultra
で動作します 単一の24GB GPU + 256GBシステムRAMで動作します 経由で MoEオフローディング、達成します トークン/秒 25以上
8ビット には必要です 約512GBのRAM/VRAMが
参照: 397B量子化ベンチマーク Unsloth GGUFの動作については、を参照してください。
最新のものを入手してください llama.cpp で GitHubはこちら。以下のビルド手順に従うこともできます。を変更してください -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更すると、GPUがない場合やCPU推論のみを行いたい場合に対応します。
もしあなたが直接モデルをロードするために llama.cpp を使いたい場合、以下のようにできます:( :Q4_K_M) は量子化タイプです。Hugging Face(ポイント3)経由でもダウンロードできます。これは ollama run に似ています。を使用してください export LLAMA_CACHE="folder" で特定の場所に保存するように llama.cpp 特定の場所に保存するには。モデルは最大で256Kのコンテキスト長しか持たないことを忘れないでください。
これに従ってください: 思考 モード:
これに従ってください: 非Thinking モード:
(をインストールした後)モデルをダウンロードします pip install huggingface_hub hf_transfer )。次のものを選択できます MXFP4_MOE (動的4ビット)や他の量子化バージョン(例: UD-Q4_K_XL )を選択できます。サイズと精度のバランスを取るには少なくとも2ビットの動的量子化を推奨します。 UD-Q2_K_XL ダウンロードが停滞する場合は、次を参照してください: Hugging Face Hub、XET デバッグ
を編集できます --threads 32 CPUスレッド数用、 --ctx-size 16384 コンテキスト長用、 --n-gpu-layers 2 GPUオフローディングするレイヤー数用です。GPUがメモリ不足になる場合はこれを調整してみてください。CPUのみの推論の場合はこれを削除してください。
👾 LM Studio ガイド
本ガイドでは、次を使用します: LM Studio、LLMを実行するための統一UIインターフェースです。'💡Thinking'と'Non-thinking'の切り替えはデフォルトで表示されない場合があるため、動作させるには追加の手順が必要です。
をダウンロードしてください LM Studio あなたのデバイス用。次にモデル検索を開き、'unsloth/qwen3.5' を検索して、望むGGUF(量子化)をダウンロードします。

Thinking切り替え手順: ダウンロード後、ターミナル/PowerShellを開いて次を試してください: lms --help。その後、LM Studioが多数のコマンドと共に正常に表示される場合は次を実行します:
これにより、あなたのGGUFに'💡Thinking'と'Non-thinking'の切り替えを表示させるyamlファイルが取得されます。 4b を希望する量子化に変更できます。

あるいは、次に行ってください: 当社のLM Studioページ に行き、特定のyamlファイルをダウンロードしてください。
LM Studioを再起動し、ダウンロードしたモデル(ダウンロードしたThinking切り替え付き)を読み込みます。これでThinking切り替えが有効になっているはずです。正しいパラメータを設定するのを忘れないでください: 正しいパラメータ.

🦙 Llama-server のサービングと OpenAI の completion ライブラリ
Qwen3.5-397B-A17B を本番環境にデプロイするには、次を使用します: llama-server 新しいターミナルで(例:tmux経由で)、次のようにモデルをデプロイします:
次に別のターミナルで、次を実行した後: pip install openai、次を行います:
🤔 推論(reasoning)とThinkingを有効または無効にする方法
以下のコマンドでは、'true' と 'false' を互換的に使用できます。〜を有効にするには LM StudioのThink切り替えについては、ガイドをお読みください.
を 無効にする thinking / reasoning を無効にするには、llama-server内で次を使用してください:
もしあなたが Windows または Powershell では、次を使用します: --chat-template-kwargs "{\"enable_thinking\":false}"
を 有効にする thinking / reasoning を無効にするには、llama-server内で次を使用してください:
もしあなたが Windows または Powershell では、次を使用します: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5の0.8B、2B、4B、9Bでは、推論はデフォルトで無効になっています。有効にするには、次を使用してください: --chat-template-kwargs '{"enable_thinking":true}'
WindowsまたはPowershellでは: --chat-template-kwargs "{\"enable_thinking\":true}"
例としてQwen3.5-9BでThinkingを有効にする場合(デフォルトは無効):
そしてPythonでは:

👨💻 OpenAI Codex と Claude Code
ローカルでのエージェント的なコーディングワークロードでモデルを実行するには、次を行えます: ガイドに従ってください単にモデル名を希望の 'Qwen3.5' バリアントに変更し、Qwen3.5の正しいパラメータと使用手順に従っていることを確認してください。先ほど設定した llama-server を使用してください。
例えばClaude Codeの手順に従った後、次のように表示されます:

その後、次のように尋ねることができます: チェスのPythonゲームを作成して :



🔨Tool Calling(ツール呼び出し)とQwen3.5
参照: Tool Calling Guide ツール呼び出しの詳細については〜を参照してください。新しいターミナルで(tmux使用時は CTRL+B+D)、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなどのツールを作成します:
次に、以下の関数を(コピーして貼り付けて実行)使用します。これらは関数呼び出しを自動的に解析し、任意のモデル用にOpenAIエンドポイントを呼び出します:
Qwen3.5を起動した後、 llama-server のように Qwen3.5 または参照してください Tool Calling Guide 詳細については、次にいくつかのツール呼び出しを行うことができます。
📊 ベンチマーク
Unsloth GGUF ベンチマーク
Qwen3.5-35B Unsloth ダイナミック量子化を更新しました ほぼすべての面で最先端(SOTA)です 150以上のKLダイバージェンスベンチマークを実施し、合計で 9TBのGGUF。研究成果をすべてアップロードしました。また、 ツール呼び出し チャットテンプレート バグ (すべての量子化アップローダーに影響)
すべてのGGUFは現在、 改良された量子化 アルゴリズムで更新されています。
すべてが私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。
Qwen3.5-35B-A3BのGGUFは新しい修正を適用するよう更新されました(112B、27Bはまだ変換中で、更新後に再ダウンロードしてください)
99.9%のKLダイバージェンスが最先端を示しています UD-Q4_K_XL、IQ3_XXSなどのパレートフロンティア上で。
MXFP4の廃止 すべてのGGUF量子化から:Q2_K_XL、Q3_K_XL、Q4_K_XL(純粋なMXFP4_MOEを除く)。


詳細なQWEN3.5の分析とベンチマークはこちら:
Qwen3.5 GGUF ベンチマークQwen3.5-397B-A17B ベンチマーク

Benjamin Marie(第三者)がベンチマークを実施しました Qwen3.5-397B-A17B Unsloth GGUFを使用して、 750プロンプト混合スイートで (LiveCodeBench v6、MMLU Pro、GPQA、Math500)、全体の 総合精度 および 相対誤差増加 (量子化モデルがオリジナルよりどれだけ多く誤るか)。
主要な結果(精度;オリジナルとの変化;相対誤差増加):
オリジナルの重み: 81.3%
UD-Q4_K_XL: 80.5% (−0.8ポイント;相対誤差増加+4.3%)
UD-Q3_K_XL: 80.7% (−0.6ポイント;相対誤差増加+3.5%)
UD-Q4_K_XL および UD-Q3_K_XL オリジナルに非常に近く保たれ、 このスイートで1ポイント未満の精度低下に収まります Benはこれにより、次のことが可能だと示唆しています: メモリフットプリントを大幅に削減する (約500GB少なくなる)テストされたタスクで実用的な損失がほとんどないままです。
選び方: この規模では実行ごとのばらつきとしてQ3がQ4よりわずかに高いスコアになることは十分にあり得るので、 このベンチマークではQ3とQ4を実質的に同等の品質として扱ってください :
選択してください Q3 もしあなたが望むなら 最小のフットプリント/最高のメモリ節約
選択してください Q4 もしあなたが望むなら、 やや保守的な オプションで 類似した 結果
ここに挙げられたすべての量子化は当社のダイナミック手法を利用しています。UD-IQ2_Mでさえ同じダイナミック手法を使用していますが、変換プロセスはUD-Q2-K-XLとは異なります。 UD-IQ2_M は同じダイナミック手法を使用しますが、変換プロセスは異なります UD-Q2-K-XL 通常、K-XLはより大きいにもかかわらず高速であるため、 UD-IQ2_M そのため UD-IQ2_M はより良く動作する可能性があります UD-Q2-K-XL.
公式Qwenベンチマーク
Qwen3.5-35B-A3B、27Bおよび122B-A10B ベンチマーク

Qwen3.5-4Bおよび9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

最終更新
役に立ちましたか?

