For the complete documentation index, see llms.txt. This page is also available as Markdown.

💜Qwen3.5 - ローカル実行方法

新しいQwen3.5 LLMを、Medium: Qwen3.5-35B-A3B、27B、122B-A10B、Small: Qwen3.5-0.8B、2B、4B、9B、397B-A17B を含めてローカルデバイスで実行しましょう!

Qwen3.5はAlibabaの新しいモデルファミリーで、Qwen3.5-35B-A3B、 27B, 122B-A10B と 397B-A17B、および新しい Small シリーズ: Qwen3.5-0.8B、2B、4B、9B です。マルチモーダル・ハイブリッド推論LLMは、各サイズで最強の性能を発揮します。対応するのは 256Kのコンテキスト 201言語にわたり、 thinking + 思考モードを備え、エージェント的コーディング、視覚、チャット、長文コンテキストのタスクに優れています。35Bと27Bのモデルは22GBのMac / RAMデバイスで動作します。すべて見る ここで GGUF を入手.

Qwen3.5チュートリアルを実行するQwen3.5をファインチューニングする

すべてのアップロードは Unsloth Dynamic 2.0 SOTA量子化性能のためです。そのため4ビットでは重要なレイヤーが8または16ビットにアップキャストされています。Unslothに初日アクセスを提供してくれたQwenに感謝します。あなたも ファインチューニング Qwen3.5 ことも Unsloth を使ってできます。

思考の有効化/無効化については Qwen3.5を参照してください。Qwen3.5のSmallモデルでは既定で無効です。

⚙️ 使用ガイド

表: 推論に必要なハードウェア (単位 = 総メモリ: RAM + VRAM、またはユニファイドメモリ)

Qwen3.5
3-bit
4-bit
6ビット
8-bit
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

の間では 27B および 35B-A3B、やや高精度な結果が欲しくてデバイスに収まらないなら27Bを使ってください。より高速な推論が欲しいなら35B-A3Bを選んでください。

推奨設定

  • 最大コンテキストウィンドウ: 262,144 (YaRNで1Mまで拡張可能)

  • presence_penalty = 0.0 から 2.0 既定ではこれはオフですが、反復を減らすために使えます。ただし、値を高くすると 性能がわずかに低下する可能性があります

  • 適切な出力長: 32,768 ほとんどのクエリでのトークン

意味不明な出力が出る場合、コンテキスト長が短すぎる可能性があります。あるいは、次を試してください: --cache-type-k bf16 --cache-type-v bf16 が役立つかもしれません。

Qwen3.5はハイブリッド推論なので、思考モードと非思考モードでは設定が異なります:

思考モード:

一般的なタスク
正確なコーディングタスク(例: WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat_penalty = 無効 または 1.0

repeat_penalty = 無効 または 1.0

一般的なタスク向けの思考モード:

正確なコーディングタスク向けの思考モード:

Instruct(非思考)モードの設定:

一般的なタスク
推論タスク

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat_penalty = 無効 または 1.0

repeat_penalty = 無効 または 1.0

一般的なタスク向けのInstruct(非思考):

推論タスク向けのInstruct(非思考):

Qwen3.5推論チュートリアル:

Qwen3.5は多くの異なるサイズがあるため、すべての推論ワークロードにDynamic 4-bit MXFP4_MOE GGUFバリアントを使用します。以下をクリックして、対象モデルの手順に移動してください:

Unsloth Studio で実行Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B - 9B)

Unsloth Dynamic GGUFのアップロード:

🦥 Unsloth Studio ガイド

Qwen3.5は Unsloth Studioで実行できます。これはローカル AI 向けの新しいオープンソース Web UI です。Unsloth Studio を使えば、モデルをローカルで MacOS、Windows、Linux および:

1

Unslothをインストールする

ターミナルで実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL、Windows:

その後、 http://localhost:8888 をブラウザで開いてください。

3

Qwen3.5を検索してダウンロード

初回起動時には、アカウントを保護し後で再度サインインするためのパスワードを作成する必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

その後、 Studio Chat タブを開き、検索バーでQwen3.5を検索して、希望のモデルと量子化をダウンロードしてください。

4

Qwen3.5を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

🦙 Llama.cppガイド

Qwen3.5-35B-A3B

このガイドでは、24GB RAM / Macデバイスで高速推論に非常に適しているDynamic 4-bitを使用します。モデルはF16のフル精度でも約72GBしかないため、性能についてそれほど心配する必要はありません。GGUF: Qwen3.5-35B-A3B-GGUF

これらのチュートリアルでは、 llama.cpp を使って、特にCPUがある場合の高速ローカル推論に利用します。

1

最新の llama.cpp GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、次を設定して -DGGML_CUDA=OFF その後は通常どおり続けてください - Metal サポートは既定で有効です。

2

もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。

以下の用途に応じて、次のいずれかの特定コマンドに従ってください:

思考モード:

正確なコーディングタスク(例: WebDev):

一般的なタスク:

非思考モード:

一般的なタスク:

推論タスク:

3

モデルのダウンロード( pip install huggingface_hub hf_transfer )。Q4_K_Mや、次のような他の量子化版を選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

Qwen3.5 Small(0.8B • 2B • 4B • 9B)

Qwen3.5 Smallシリーズはとても小さいため、スクリプト内のモデル名を目的のバリアントに変えるだけで使えます。この特定のガイドでは9Bパラメータ版を使用します。すべてをほぼ完全精度で動かすには、12GBのRAM / VRAM / ユニファイドメモリ搭載デバイスが必要です。GGUF:

1

最新の llama.cpp GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

2

もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。

以下の用途に応じて、次のいずれかの特定コマンドに従ってください:

思考モード(既定では無効)

一般的なタスク:

非思考モードは既定で既にオンです

一般的なタスク:

推論タスク:

3

モデルのダウンロード( pip install huggingface_hub hf_transfer )。Q4_K_Mや、次のような他の量子化版を選べます UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

Qwen3.5-27B

このガイドでは、18GB RAM / Macデバイスで高速推論に非常に適しているDynamic 4-bitを使用します。GGUF: Qwen3.5-27B-GGUF

1

最新の llama.cpp GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

2

もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。

以下の用途に応じて、次のいずれかの特定コマンドに従ってください:

思考モード:

正確なコーディングタスク(例: WebDev):

一般的なタスク:

非思考モード:

一般的なタスク:

推論タスク:

3

モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 MXFP4_MOE または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

Qwen3.5-122B-A10B

このガイドでは、70GB RAM / Macデバイスで高速推論に非常に適しているDynamic 4-bitを使用します。GGUF: Qwen3.5-122B-A10B-GGUF

1

最新の llama.cpp GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

2

もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp と似ており、特定の場所に保存します。モデルの最大コンテキスト長は256Kです。

以下の用途に応じて、次のいずれかの特定コマンドに従ってください:

思考モード:

正確なコーディングタスク(例: WebDev):

一般的なタスク:

非思考モード:

一般的なタスク:

推論タスク:

3

モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 MXFP4_MOE (dynamic 4bit)または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17Bは、Gemini 3 Pro、Claude Opus 4.5、GPT-5.2と同じ性能帯にあります。完全な397Bチェックポイントはディスク上で約807GBですが、 Unslothの397B GGUF を使えば、

  • 3-bitに収まります 192GB RAM システム(例: 192GBのMac)

  • 4ビット(MXFP4)に収まります 256GB RAM。Unsloth 4ビットDynamic UD-Q4_K_XLディスク上で約214GB - 直接ロードできるのは 256GBのM3 Ultra

  • で動作します 単一の24GB GPU + 256GBシステムRAM 経由で MoEオフロードにより 毎秒25トークン以上

  • 8-bit 必要です 約512GBのRAM/VRAM

参照 397B量子化ベンチマーク Unsloth GGUFの性能について。

1

最新の llama.cpp GitHub こちらから取得してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。

2

もし llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_M)は量子化タイプです。Hugging Faceからもダウンロードできます(ポイント3)。これは ollama run に似ています。使用 export LLAMA_CACHE="folder" して llama.cpp 特定の場所に保存します。モデルの最大コンテキスト長は256Kのみであることを忘れないでください。

以下を参照してください: thinking モード:

以下を参照してください: 非思考 モード:

3

モデルのダウンロード( pip install huggingface_hub hf_transfer のインストール後)。 MXFP4_MOE (dynamic 4bit)または次のような他の量子化版 UD-Q4_K_XL 。サイズと精度のバランスのため、少なくとも2ビットのDynamic量子化を使うことを推奨します UD-Q2_K_XL 。ダウンロードが止まる場合は、次を参照してください: Hugging Face Hub、XETデバッグ

4

編集できます --threads 32 CPU スレッド数を --n-gpu-layers 2 GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。

👾 LM Studioガイド

このガイドでは、 LM Studioを使います。これはLLMを実行するための統合UIです。'💡Thinking' と 'Non-thinking' の切り替えは既定では表示されない場合があるため、動作させるには追加の手順が必要です。

1

ダウンロード LM Studio をデバイス用に行ってください。次にModel Searchを開き、'unsloth/qwen3.5' を検索し、希望するGGUF(量子化版)をダウンロードしてください。

2

Thinking切り替えの手順: ダウンロード後、端末 / PowerShellを開いて次を試してください: lms --help。多くのコマンドが表示され通常どおりLM Studioが動くなら、次を実行してください:

これによりyamlファイルが取得され、GGUFに '💡Thinking' と 'Non-thinking' の切り替えを表示できるようになります。 4b を希望する量子化版に変更できます。

それ以外の場合は、 LM Studioのページ に行って、特定のyamlファイルをダウンロードしてください。

3

LM Studioを再起動し、次にダウンロードしたモデル(ダウンロードした特定の思考切り替え付き)を読み込んでください。これでThinking切り替えが有効になっているはずです。設定を忘れずに 正しいパラメータ.

🦙 Llama-server による提供と OpenAI の completion ライブラリ

Qwen3.5-397B-A17Bを本番環境へデプロイするには、次を使用します llama-server を使用します。新しいターミナルで、たとえば tmux 経由で、次のようにモデルをデプロイします:

次に新しいターミナルで、 pip install openaiを実行した後、次を行います:

🤔 推論と思考を有効化/無効化する方法

以下のコマンドでは、'true' と 'false' を同等に使えます。

Unsloth Studio 思考モデル用の 'Think' 切り替えが自動であります。

LM StudioでThink切り替えを使うには、 ガイドをお読みください.

Unsloth Studioは既定でThink切り替えがあります

思考を 無効化 thinking / reasoningを使うには、llama-server内で次を使用:

もし Windows またはPowershellでは、次を使用: --chat-template-kwargs "{\"enable_thinking\":false}"

思考を 有効化 thinking / reasoningを使うには、llama-server内で次を使用:

もし Windows またはPowershellでは、次を使用: --chat-template-kwargs "{\"enable_thinking\":true}"

Qwen3.5-9Bで思考を有効にする例(既定では無効):

そしてPythonでは:

👨‍💻 OpenAI Codex & Claude Code

ローカルのコーディングエージェント的ワークロード経由でモデルを実行するには、 ガイドに従ってください。モデル名を希望の 'Qwen3.5' バリアントに変更し、正しいQwen3.5のパラメータと使用手順に従ってください。 llama-server さっき設定した

たとえばClaude Codeの手順に従うと、次が表示されます:

では、次のように依頼できます Pythonでチェスゲームを作成して :

🔨Qwen3.5でのツール呼び出し

参照 Tool Calling Guide ツール呼び出しの方法の詳細については。新しい端末で(tmux を使っている場合は CTRL+B+D)、2つの数の加算、Python コードの実行、Linux 関数の実行など、いくつかのツールを作成します:

その後、以下の関数(コピーして貼り付けて実行)を使用します。これにより関数呼び出しが自動的に解析され、任意のモデルに対して OpenAI エンドポイントが呼び出されます:

Qwen3.5を起動した後 llama-server 経由で起動した後、 Qwen3.5 のように、または Tool Calling Guide さらに詳しくは、いくつかのツール呼び出しを行えます。

📊 ベンチマーク

Unsloth GGUFベンチマーク

Qwen3.5-35BのUnsloth Dynamic量子化を更新しました SOTAであること ほぼすべてのビットで。150回以上のKL Divergenceベンチマークを行い、合計 9TBのGGUFを公開しました。研究成果物はすべてアップロード済みです。また、 ツール呼び出し チャットテンプレート のバグを修正しました (すべての量子化アップローダーに影響)

  • すべてのGGUFが新しい 改善された量子化 アルゴリズムで更新されました。

  • すべてで私たちの 新しいimatrixデータを使用しています。チャット、コーディング、長文コンテキスト、ツール呼び出しのユースケースでいくつかの改善が見られます。

  • Qwen3.5-35B-A3B GGUFは新しい修正を使うよう更新されています(112B、27Bはまだ変換中。更新されたら再ダウンロードしてください)

  • 99.9%のKL DivergenceがSOTAを示します UD-Q4_K_XL、IQ3_XXSなどでパレートフロンティア上。

  • MXFP4を廃止 すべてのGGUF量子化から: 純粋なMXFP4_MOEを除くQ2_K_XL、Q3_K_XL、Q4_K_XL。

35B-A3B - KLDベンチマーク(低いほど良い)
122B-A10B - KLDベンチマーク(低いほど良い)

詳細なQWEN3.5分析 + ベンチマークはこちら:

Qwen3.5 GGUFベンチマーク

Qwen3.5-397B-A17B ベンチマーク

Benjamin Marie(第三者)がベンチマークを実施 Qwen3.5-397B-A17B Unsloth GGUFを使って 750プロンプトの混合セット (LiveCodeBench v6、MMLU Pro、GPQA、Math500)で、次の両方を報告: 全体精度 および 相対誤差増加 (量子化モデルが元のモデルよりどれだけ多くミスするか)。

主な結果(精度; 元との変化; 相対誤差増加):

  • 元の重み: 81.3%

  • UD-Q4_K_XL: 80.5% (−0.8ポイント; 相対誤差増加 +4.3%)

  • UD-Q3_K_XL: 80.7% (−0.6ポイント; 相対誤差増加 +3.5%)

UD-Q4_K_XL および UD-Q3_K_XL 元に極めて近いままで、 このセットでは精度低下は1ポイントを大きく下回り、 Benは、あなたが メモリ使用量を大幅に削減できる (約500GB少なく)テストしたタスクでは実用上ほとんど、またはまったく損失がないと示唆しています。

選び方: ここでQ3がQ4よりわずかに高いのは、この規模では通常の実行間ばらつきとして十分あり得るので、 Q3とQ4は実質的に同等品質として扱ってください このベンチマークでは:

  • 選ぶ Q3 もし 最小のフットプリント / 最大のメモリ節約

  • 選ぶ Q4 もし やや保守的な オプションで 同様の 結果が欲しいなら

記載されているすべての量子化版は私たちのdynamic手法を使っています。 UD-IQ2_M も同じdynamic手法を使用していますが、変換プロセスが UD-Q2-K-XL と異なります。K-XLは通常、 UD-IQ2_M より大きくても高速なので、だからこそ UD-IQ2_MUD-Q2-K-XL.

公式Qwenベンチマーク

Qwen3.5-35B-A3B、27B、122B-A10B ベンチマーク

Qwen3.5-4Bと9B ベンチマーク

Qwen3.5-397B-A17B ベンチマーク

最終更新

役に立ちましたか?