💜Qwen3.5 - ローカル実行方法
新しいQwen3.5 LLMを、Medium: Qwen3.5-35B-A3B、27B、122B-A10B、Small: Qwen3.5-0.8B、2B、4B、9B、397B-A17B を含めてローカルデバイスで実行しましょう!
Qwen3.5はAlibabaの新しいモデルファミリーで、Qwen3.5-35B-A3B、 27B, 122B-A10B と 397B-A17B、および新しい Small シリーズ: Qwen3.5-0.8B、2B、4B、9B です。マルチモーダル・ハイブリッド推論LLMは、各サイズで最強の性能を発揮します。対応するのは 256Kのコンテキスト 201言語にわたり、 thinking + 非思考モードを備え、エージェント的コーディング、視覚、チャット、長文コンテキストのタスクに優れています。35Bと27Bのモデルは22GBのMac / RAMデバイスで動作します。すべて見る ここで GGUF を入手.
Qwen3.5チュートリアルを実行するQwen3.5をファインチューニングする
3月17日更新: 今ではQwen3.5を Unsloth Studio.
3月5日更新: Qwen3.5-を再ダウンロード35B, 27B, 122B および 397B.
すべてのGGUFが新しい 改善された量子化 アルゴリズムで更新されました。
すべてで私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。
ツール呼び出しが改善 されました。これはチャットテンプレートの修正に続くものです。 修正は共通 であり、 あらゆる Qwen3.5形式と あらゆる アップローダーに適用されます。
新しいGGUFベンチマークを確認 Unslothの性能結果 + 私たちの MXFP4調査.
3つのQwen3.5 GGUF、Q2_K_XL、Q3_K_XL、Q4_K_XLからMXFP4レイヤーを廃止します。
すべてのアップロードは Unsloth Dynamic 2.0 SOTA量子化性能のためです。そのため4ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Unslothに初日アクセスを提供してくれたQwenに感謝します。あなたも ファインチューニング Qwen3.5 ことも Unsloth を使ってできます。
思考の有効化/無効化については Qwen3.5を参照してください。Qwen3.5のSmallモデルでは既定で無効です。
⚙️ 使用ガイド
表: 推論に必要なハードウェア (単位 = 総メモリ: RAM + VRAM、またはユニファイドメモリ)
最適な性能を得るには、利用可能な総メモリ(VRAM + システム RAM)が、ダウンロードする量子化済みモデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフローディング経由で実行できますが、推論は遅くなります。
の間では 27B および 35B-A3B、やや高精度な結果が欲しくてデバイスに収まらないなら27Bを使ってください。より高速な推論が欲しいなら35B-A3Bを選んでください。
推奨設定
最大コンテキストウィンドウ:
262,144(YaRNで1Mまで拡張可能)presence_penalty = 0.0 から 2.0既定ではこれはオフですが、反復を減らすために使えます。ただし、値を高くすると 性能がわずかに低下する可能性があります適切な出力長:
32,768ほとんどのクエリでのトークン
意味不明な出力が出る場合、コンテキスト長が短すぎる可能性があります。あるいは、次を試してください: --cache-type-k bf16 --cache-type-v bf16 が役立つかもしれません。
Qwen3.5はハイブリッド推論なので、思考モードと非思考モードでは設定が異なります:
思考モード:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat_penalty = 無効 または 1.0
repeat_penalty = 無効 または 1.0
一般的なタスク向けの思考モード:
正確なコーディングタスク向けの思考モード:
Instruct(非思考)モードの設定:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat_penalty = 無効 または 1.0
repeat_penalty = 無効 または 1.0
思考を 無効化するには、次を使用: --chat-template-kwargs '{"enable_thinking":false}'
もし Windows Powershellを使っているなら、次を使用: --chat-template-kwargs "{\"enable_thinking\":false}"
'true' と 'false' は同等に使えます。
Qwen3.5 0.8B、2B、4B、9Bでは、推論は既定で無効です。有効にするには、次を使用: --chat-template-kwargs '{"enable_thinking":true}'
一般的なタスク向けのInstruct(非思考):
推論タスク向けのInstruct(非思考):
Qwen3.5推論チュートリアル:
Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードにDynamic 4-bit MXFP4_MOE GGUFバリアントを使用します。以下をクリックして、対象モデルの手順に移動してください:
Unsloth Studio で実行Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B - 9B)
Unsloth Dynamic GGUFのアップロード:
presence_penalty = 0.0 から 2.0 既定ではこれはオフですが、反復を減らすために使えます。ただし、値を高くすると 性能がわずかに低下します。
現在、分離されたmmprojビジョンファイルのため、OllamaではQwen3.5 GGUFは動作しません。llama.cpp互換のバックエンドを使用してください。
🦥 Unsloth Studio ガイド
Qwen3.5は Unsloth Studioで実行できます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで MacOS、Windows、Linux および:
検索、ダウンロード、 GGUF を実行 し、safetensor モデルを扱う
自己修復 ツール呼び出し + Web 検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
llama.cpp を介した高速な CPU + GPU 推論
LLM を学習する VRAM を 70% 少なくして 2 倍高速

Qwen3.5を検索してダウンロード
初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。
その後、 Studio Chat タブを開き、検索バーでQwen3.5を検索して、希望のモデルと量子化をダウンロードしてください。

Qwen3.5を実行
Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細は、 Unsloth Studio 推論ガイド.

🦙 Llama.cppガイド
Qwen3.5-35B-A3B
このガイドでは、24GB RAM / Macデバイスで高速推論に非常に適しているDynamic 4-bitを使用します。モデルはF16のフル精度でも約72GBしかないため、性能についてそれほど心配する必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF
これらのチュートリアルでは、 llama.cpp を使って、特にCPUがある場合の高速ローカル推論に利用します。
最新の llama.cpp を GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。
もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。
以下の用途に応じて、次のいずれかの特定コマンドに従ってください:
思考モード:
正確なコーディングタスク(例: WebDev):
一般的なタスク:
非思考モード:
一般的なタスク:
推論タスク:
モデルのダウンロード( pip install huggingface_hub hf_transfer )。Q4_K_Mや、次のような他の量子化版を選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
Qwen3.5 Small(0.8B • 2B • 4B • 9B)
Qwen3.5 0.8B、2B、4B、9Bでは、 推論は無効です 既定で。有効にするには、次を使用: --chat-template-kwargs '{"enable_thinking":true}'
Windowsでは次を使用: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 Smallシリーズはとても小さいため、スクリプト内のモデル名を目的のバリアントに変えるだけで使えます。この特定のガイドでは9Bパラメータ版を使用します。すべてをほぼ完全精度で動かすには、12GBのRAM / VRAM / ユニファイドメモリ搭載デバイスが必要です。GGUF:
最新の llama.cpp を GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。
もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。
以下の用途に応じて、次のいずれかの特定コマンドに従ってください:
9B以外の別バリアントを使うには、'9B' を次のいずれかに変更できます: 0.8B、2B、4B など。
思考モード(既定では無効)
Qwen3.5 Smallモデルは既定で思考が無効です。これを有効にするには llama-server を使ってください。
一般的なタスク:
9B以外の別バリアントを使うには、'9B' を次のいずれかに変更できます: 0.8B、2B、4B など。
非思考モードは既定で既にオンです
一般的なタスク:
推論タスク:
モデルのダウンロード( pip install huggingface_hub hf_transfer )。Q4_K_Mや、次のような他の量子化版を選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
Qwen3.5-27B
このガイドでは、18GB RAM / Macデバイスで高速推論に非常に適しているDynamic 4-bitを使用します。GGUF: Qwen3.5-27B-GGUF
最新の llama.cpp を GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。
もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。
以下の用途に応じて、次のいずれかの特定コマンドに従ってください:
思考モード:
正確なコーディングタスク(例: WebDev):
一般的なタスク:
非思考モード:
一般的なタスク:
推論タスク:
モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 MXFP4_MOE または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
Qwen3.5-122B-A10B
このガイドでは、70GB RAM / Macデバイスで高速推論に非常に適しているDynamic 4-bitを使用します。GGUF: Qwen3.5-122B-A10B-GGUF
最新の llama.cpp を GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。
もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。
以下の用途に応じて、次のいずれかの特定コマンドに従ってください:
思考モード:
正確なコーディングタスク(例: WebDev):
一般的なタスク:
非思考モード:
一般的なタスク:
推論タスク:
モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 MXFP4_MOE (dynamic 4bit)または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17Bは、Gemini 3 Pro、Claude Opus 4.5、GPT-5.2と同じ性能帯にあります。完全な397Bチェックポイントはディスク上で約807GBですが、 Unslothの397B GGUF を使えば、
3-bitに収まります 192GB RAM システム(例: 192GBのMac)
4ビット(MXFP4)に収まります 256GB RAM。Unsloth 4ビットDynamic UD-Q4_K_XL は ディスク上で約214GB - 直接ロードできるのは 256GBのM3 Ultra
で動作します 単一の24GB GPU + 256GBシステムRAM 経由で MoEオフロードにより 毎秒25トークン以上
8-bit 必要です 約512GBのRAM/VRAM
参照 397B量子化ベンチマーク Unsloth GGUFの性能について。
最新の llama.cpp を GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。
もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp 特定の場所に保存します。モデルの最大コンテキスト長は256Kのみであることを忘れないでください。
以下を参照してください: thinking モード:
以下を参照してください: 非思考 モード:
モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 MXFP4_MOE (dynamic 4bit)または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ
編集できます --threads 32 CPU スレッド数を --n-gpu-layers 2 GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。
👾 LM Studioガイド
このガイドでは、 LM Studioを使います。これはLLMを実行するための統合UIです。'💡Thinking' と 'Non-thinking' の切り替えは既定では表示されない場合があるため、動作させるには追加の手順が必要です。
ダウンロード LM Studio をデバイス用に行ってください。次にModel Searchを開き、'unsloth/qwen3.5' を検索し、希望するGGUF(量子化版)をダウンロードしてください。

Thinking切り替えの手順: ダウンロード後、端末 / PowerShellを開いて次を試してください: lms --help。多くのコマンドが表示され通常どおりLM Studioが動くなら、次を実行してください:
これによりyamlファイルが取得され、GGUFに '💡Thinking' と 'Non-thinking' の切り替えを表示できるようになります。 4b を希望する量子化版に変更できます。

それ以外の場合は、 LM Studioのページ に行って、特定のyamlファイルをダウンロードしてください。
LM Studioを再起動し、次にダウンロードしたモデル(ダウンロードした特定の思考切り替え付き)を読み込んでください。これでThinking切り替えが有効になっているはずです。設定を忘れずに 正しいパラメータ.

🦙 Llama-server による提供と OpenAI の completion ライブラリ
Qwen3.5-397B-A17Bを本番環境へデプロイするには、次を使用します llama-server を使用します。新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:
次に新しいターミナルで、 pip install openaiを実行した後、次を行います:
🤔 推論と思考を有効化/無効化する方法
以下のコマンドでは、'true' と 'false' を同等に使えます。
Unsloth Studio 思考モデル用の 'Think' 切り替えが自動であります。
LM StudioでThink切り替えを使うには、 ガイドをお読みください.

思考を 無効化 thinking / reasoningを使うには、llama-server内で次を使用:
もし Windows またはPowershellでは、次を使用: --chat-template-kwargs "{\"enable_thinking\":false}"
思考を 有効化 thinking / reasoningを使うには、llama-server内で次を使用:
もし Windows またはPowershellでは、次を使用: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5 0.8B、2B、4B、9Bでは、推論は既定で無効です。有効にするには、次を使用: --chat-template-kwargs '{"enable_thinking":true}'
WindowsまたはPowershellでは: --chat-template-kwargs "{\"enable_thinking\":true}"
Qwen3.5-9Bで思考を有効にする例(既定では無効):
そしてPythonでは:

👨💻 OpenAI Codex & Claude Code
ローカルのコーディングエージェント的ワークロード経由でモデルを実行するには、 ガイドに従ってください。モデル名を希望の 'Qwen3.5' バリアントに変更し、正しいQwen3.5のパラメータと使用手順に従ってください。 llama-server さっき設定した
たとえばClaude Codeの手順に従うと、次が表示されます:

では、次のように依頼できます Pythonでチェスゲームを作成して :



🔨Qwen3.5でのツール呼び出し
参照 Tool Calling Guide ツール呼び出しの方法の詳細については。新しい端末で(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:
その後、以下の関数(コピーして貼り付けて実行)を使用します。これにより関数呼び出しが自動的に解析され、任意のモデルに対して OpenAI エンドポイントが呼び出されます:
Qwen3.5を起動した後 llama-server 経由で起動した後、 Qwen3.5 のように、または Tool Calling Guide さらに詳しくは、いくつかのツール呼び出しを行えます。
📊 ベンチマーク
Unsloth GGUFベンチマーク
Qwen3.5-35BのUnsloth Dynamic量子化を更新しました SOTAであること ほぼすべてのビットで。150回以上のKL Divergenceベンチマークを行い、合計 9TBのGGUFを公開しました。研究成果物はすべてアップロード済みです。また、 ツール呼び出し チャットテンプレート のバグを修正しました (すべての量子化アップローダーに影響)
すべてのGGUFが新しい 改善された量子化 アルゴリズムで更新されました。
すべてで私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。
Qwen3.5-35B-A3B GGUFは新しい修正を使うよう更新されています(112B、27Bはまだ変換中。更新されたら再ダウンロードしてください)
99.9%のKL DivergenceがSOTAを示します UD-Q4_K_XL、IQ3_XXSなどでパレートフロンティア上。
MXFP4を廃止 すべてのGGUF量子化から: 純粋なMXFP4_MOEを除くQ2_K_XL、Q3_K_XL、Q4_K_XL。


詳細なQWEN3.5分析 + ベンチマークはこちら:
Qwen3.5 GGUFベンチマークQwen3.5-397B-A17B ベンチマーク

Benjamin Marie(第三者)がベンチマークを実施 Qwen3.5-397B-A17B Unsloth GGUFを使って 750プロンプトの混合セット (LiveCodeBench v6、MMLU Pro、GPQA、Math500)で、次の両方を報告: 全体精度 および 相対誤差増加 (量子化モデルが元のモデルよりどれだけ多くミスするか)。
主な結果(精度; 元との変化; 相対誤差増加):
元の重み: 81.3%
UD-Q4_K_XL: 80.5% (−0.8ポイント; 相対誤差増加 +4.3%)
UD-Q3_K_XL: 80.7% (−0.6ポイント; 相対誤差増加 +3.5%)
UD-Q4_K_XL および UD-Q3_K_XL 元に極めて近いままで、 このセットでは精度低下は1ポイントを大きく下回り、 Benは、あなたが メモリ使用量を大幅に削減できる (約500GB少なく)テストしたタスクでは実用上ほとんど、またはまったく損失がないと示唆しています。
選び方: ここでQ3がQ4よりわずかに高いのは、この規模では通常の実行間ばらつきとして十分あり得るので、 Q3とQ4は実質的に同等品質として扱ってください このベンチマークでは:
選ぶ Q3 もし 最小のフットプリント / 最大のメモリ節約
選ぶ Q4 もし やや保守的な オプションで 同様の 結果が欲しいなら
記載されているすべての量子化版は私たちのdynamic手法を使っています。 UD-IQ2_M も同じdynamic手法を使用していますが、変換プロセスが UD-Q2-K-XL と異なります。K-XLは通常、 UD-IQ2_M より大きくても高速なので、だからこそ UD-IQ2_M は UD-Q2-K-XL.
公式Qwenベンチマーク
Qwen3.5-35B-A3B、27B、122B-A10B ベンチマーク

Qwen3.5-4Bと9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

最終更新
役に立ちましたか?


