💜Qwen3.5 - ローカルでの実行方法ガイド
Qwen3.5-397B-A17B を含む新しい Qwen3.5 LLM をローカルのデバイスで実行しましょう!
Qwen3.5はアリババの新しいモデルファミリで、Qwen3.5-397B-A17B(397Bパラメータ、17Bアクティブ)を含むマルチモーダル推論モデルで、性能はGemini 3 Pro、Claude Opus 4.5、GPT-5.2に匹敵します。これらはサポートしています 256Kコンテキスト (1Mまで拡張可能)201言語に対応し、思考モードと非思考モードを提供し、コーディング、視覚、エージェント、チャット、長文コンテキストのタスクに優れています。
フルのQwen3.5-397B-A17Bモデルは 約807GB のディスク容量が必要で、3ビット量子化は 192GB のMac/RAMデバイスで、または4ビットMXFP4は 256GB Mac: Qwen3.5-397B-A17B GGUF
すべてのアップロードはUnslothを使用しています Dynamic 2.0 で最先端の量子化性能を実現します ― つまり4ビットでは重要なレイヤーが8ビットまたは16ビットにアップキャストされます。Unslothにデイゼロでのアクセスを提供してくれたQwenに感謝します。
⚙️ 使用ガイド
Unslothの4ビット動的量子化UD-Q4_K_XLは 214GB のディスク空間を使用します — これは直接 256GB M3 Ultraに収まり、 1枚の24GBカードと256GBのRAM でMoEオフローディングを用いて25+ トークン/秒を実現します。3ビット 量子化は192GB RAMに収まり、8ビットは512GBのRAM/VRAMが必要です。
最高のパフォーマンスを得るには、VRAM + RAMの合計がダウンロードする量子化モデルのサイズと同等であることが望ましいです。そうでない場合でも、llama.cppでハードドライブ/SSDオフローディングは動作しますが、推論は遅くなります。
推奨設定
Qwen3.5はハイブリッド推論であるため、思考モードと非思考モードは異なる設定が必要です:
temperature = 0.6
temperature = 0.7
top_p = 0.95
top_p = 0.8
tok_k = 20
tok_k = 20
min_p = 0
min_p = 0
repeat penalty = 無効 または 1.0
repeat penalty = 無効 または 1.0
最大コンテキストウィンドウ:
262,144presence_penalty = 0.0 から 2.0デフォルトではこれがオフですが、繰り返しを減らすために使用できます。ただし高い値を使うと若干性能が低下する可能性がありますThinking:
temperature=0.6,top_p=0.95,top_k=20,min_p=0非思考:
temperature=0.7,top_p=0.8,top_k=20,min_p=0十分な出力長:
32,768ほとんどのクエリに対するトークン数
Qwen3.5-397B-A17B チュートリアル:
このガイドではダイナミックを利用します MXFP4_MOE は高速推論のために256GB RAM / Macデバイスに丁度収まります:
✨ llama.cppで実行する
最新の llama.cpp を GitHub で入手できます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。
直接モデルを読み込むために llama.cpp モデルを直接ロードするには、以下を実行できます:(:Q3_K_XL)は量子化タイプです。Hugging Face(ポイント 3)経由でもダウンロードできます。これは似ています ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。
次に従ってください(用途別): thinking モード:
次に従ってください(用途別): 非思考 モード:
(以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます MXFP4_MOE (動的4ビット)または他の量子化バージョンのような UD-Q4_K_XL 。サイズと精度のバランスを取るために少なくとも2ビットの動的量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。
次の --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。
思考/推論を無効にするには、次を使用してください --chat-template-kwargs "{\"enable_thinking\": false}"
🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ
Qwen3.5-397B-A17Bを本番展開するには、我々は次を使用します llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:
その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:
🔨Qwen3.5でのツールコーリング
詳細については Tool Calling Guide を参照してください。新しい端末で(tmuxを使用している場合はCTRL+B+Dを使用)、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなど多くのツールを作成します:
次に以下の関数を使用します(コピー&ペーストして実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:
Qwen3.5を起動した後、 llama-server のように)、 Qwen3.5 または詳細は Tool Calling Guide 詳細については、いくつかのツール呼び出しを行うことができます。
📊 ベンチマーク
以下でQwen3.5-397B-A17Bのベンチマークを表形式でさらにご覧いただけます:

言語ベンチマーク
知識
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
MMLU-Pro
87.4
89.5
89.8
85.7
87.1
87.8
MMLU-Redux
95.0
95.6
95.9
92.8
94.5
94.9
SuperGPQA
67.9
70.6
74.0
67.3
69.2
70.4
C-Eval
90.5
92.2
93.4
93.7
94.0
93.0
指示追従(Instruction Following)
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
IFEval
94.8
90.9
93.5
93.4
93.9
92.6
IFBench
75.4
58.0
70.4
70.9
70.2
76.5
MultiChallenge
57.9
54.2
64.2
63.3
62.7
67.6
長文コンテキスト
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
AA-LCR
72.7
74.0
70.7
68.7
70.0
68.7
LongBench v2
54.5
64.4
68.2
60.6
61.0
63.2
STEM
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
GPQA
92.4
87.0
91.9
87.4
87.6
88.4
HLE
35.5
30.8
37.5
30.2
30.1
28.7
HLE-Verified¹
43.3
38.8
48
37.6
--
37.6
推論(Reasoning)
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
LiveCodeBench v6
87.7
84.8
90.7
85.9
85.0
83.6
HMMT Feb 25
99.4
92.9
97.3
98.0
95.4
94.8
HMMT Nov 25
100
93.3
93.3
94.7
91.1
92.7
IMOAnswerBench
86.3
84.0
83.3
83.9
81.8
80.9
AIME26
96.7
93.3
90.6
93.3
93.3
91.3
ジェネラルエージェント
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
BFCL-V4
63.1
77.5
72.5
67.7
68.3
72.9
TAU2-Bench
87.1
91.6
85.4
84.6
77.0
86.7
VITA-Bench
38.2
56.3
51.6
40.9
41.9
49.7
DeepPlanning
44.6
33.9
23.3
28.7
14.5
34.3
Tool Decathlon
43.8
43.5
36.4
18.8
27.8
38.3
MCP-Mark
57.5
42.3
53.9
33.5
29.5
46.1
Search Agent³
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
ツール付きHLE
45.5
43.4
45.8
49.8
50.2
48.3
BrowseComp
65.8
67.8
59.2
53.9
--/74.9
69.0/78.6
BrowseComp-zh
76.1
62.4
66.8
60.9
--
70.3
WideSearch
76.8
76.4
68.0
57.9
72.7
74.0
Seal-0
45.0
47.7
45.5
46.9
57.4
46.9
多言語性
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
MMMLU
89.5
90.1
90.6
84.4
86.0
88.5
MMLU-ProX
83.7
85.7
87.7
78.5
82.3
84.7
NOVA-63
54.6
56.7
56.7
54.2
56.0
59.1
INCLUDE
87.5
86.2
90.5
82.3
83.3
85.6
Global PIQA
90.9
91.6
93.2
86.0
89.3
89.8
PolyMATH
62.5
79.0
81.6
64.7
43.1
73.3
WMT24++
78.8
79.7
80.7
77.6
77.6
78.9
MAXIFE
88.4
79.2
87.5
84.0
72.8
88.2
コーディングエージェント
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
SWE-bench 検証済み
80.0
80.9
76.2
75.3
76.8
76.4
SWE-bench 多言語
72.0
77.5
65.0
66.7
73.0
72.0
SecCodeBench
68.7
68.6
62.4
57.5
61.3
68.3
Terminal Bench 2
54.0
59.3
54.2
22.5
50.8
52.5
注記
HLE-Verified:Humanity’s Last Exam(HLE)の検証済みかつ修正版で、透明なコンポーネント別検証プロトコルと細分化された誤り分類を伴います。データセットは以下でオープンソース化しています https://huggingface.co/datasets/skylenage/HLE-Verified.
TAU2-Bench:公式の設定に従いますが、航空会社ドメインについては例外で、すべてのモデルはClaude Opus 4.5のシステムカードで提案された修正を適用して評価しています。
MCPMark:GitHub MCPサーバーはapi.githubcopilot.comのv0.30.3を使用しています;Playwrightツールのレスポンスは32kトークンで切り詰められます。
検索エージェント:我々のモデル上に構築されたほとんどの検索エージェントは単純なコンテキスト折り畳み戦略(256k)を採用しています:ツールレスポンスの累積長が事前設定の閾値に達すると、コンテキストを制限するために履歴から古いツールレスポンスが剪定されます。
BrowseComp:我々は2つの戦略をテストしました。単純なコンテキスト折り畳みは69.0を達成し、DeepSeek-V3.2およびKimi K2.5と同じ全破棄戦略を使うと78.6を達成しました。
WideSearch:コンテキスト管理なしで256kのコンテキストウィンドウを使用しています。
MMLU-ProX:29言語の平均精度を報告しています。
WMT24++:難易度ラベリングとリバランス後のWMT24のより難しいサブセット;XCOMET-XXLを用いて55言語の平均スコアを報告します。
MAXIFE:英語+多言語の元プロンプト(合計23設定)での精度を報告します。
空欄(--)はスコアがまだ利用できないか該当しないことを示します。
ビジョン言語ベンチマーク
STEMとパズル
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
MMMU
86.7
80.7
87.2
80.6
84.3
85.0
MMMU-Pro
79.5
70.6
81.0
69.3
78.5
79.0
MathVision
83.0
74.3
86.6
74.6
84.2
88.6
Mathvista(mini)
83.1
80.0
87.9
85.8
90.1
90.3
We-Math
79.0
70.0
86.9
74.8
84.7
87.9
DynaMath
86.8
79.7
85.1
82.8
84.4
86.3
ZEROBench
9
3
10
4
9
12
ZEROBench_sub
33.2
28.4
39.0
28.4
33.5
41.0
BabyVision
34.4
14.2
49.7
22.2
36.5
52.3/43.3
一般VQA
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
RealWorldQA
83.3
77.0
83.3
81.3
81.0
83.9
MMStar
77.1
73.2
83.1
78.7
80.5
83.8
HallusionBench
65.2
64.1
68.6
66.7
69.8
71.4
MMBench (EN-DEV-v1.1)
88.2
89.2
93.7
89.7
94.2
93.7
SimpleVQA
55.8
65.7
73.2
61.3
71.2
67.1
文字認識と文書理解
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
OmniDocBench1.5
85.7
87.7
88.5
84.5
88.8
90.8
CharXiv(RQ)
82.1
68.5
81.4
66.1
77.5
80.8
MMLongBench-Doc
--
61.9
60.5
56.2
58.5
61.5
CC-OCR
70.3
76.9
79.0
81.5
79.7
82.0
AI2D_TEST
92.2
87.7
94.1
89.2
90.8
93.9
OCRBench
80.7
85.8
90.4
87.5
92.3
93.1
空間知能
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
ERQA
59.8
46.8
70.5
52.5
--
67.5
CountBench
91.9
90.6
97.3
93.7
94.1
97.2
RefCOCO(平均)
--
--
84.1
91.1
87.8
92.3
ODInW13
--
--
46.3
43.2
--
47.0
EmbSpatialBench
81.3
75.7
61.2
84.3
77.4
84.5
RefSpatialBench
--
--
65.5
69.9
--
73.6
LingoQA
68.8
78.8
72.8
66.8
68.2
81.6
V*
75.9
67.0
88.0
85.9
77.0
95.8/91.1
Hypersim
--
--
--
11.0
--
12.5
SUNRGBD
--
--
--
34.9
--
38.3
Nuscene
--
--
--
13.9
--
16.0
ビデオ理解
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
VideoMME(字幕あり)
86
77.6
88.4
83.8
87.4
87.5
VideoMME(字幕なし)
85.8
81.4
87.7
79.0
83.2
83.7
VideoMMMU
85.9
84.4
87.6
80.0
86.6
84.7
MLVU(M平均)
85.6
81.7
83.0
83.8
85.0
86.7
MVBench
78.1
67.2
74.1
75.2
73.5
77.6
LVBench
73.7
57.3
76.2
63.6
75.9
75.5
MMVU
80.8
77.3
77.5
71.1
80.4
75.4
ビジュアルエージェント
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
ScreenSpot Pro
--
45.7
72.7
62.0
--
65.6
OSWorld-Verified
38.2
66.3
--
38.1
63.3
62.2
AndroidWorld
--
--
--
63.7
--
66.8
医療
ベンチマーク
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-VL-235B-A22B
K2.5-1T-A32B
Qwen3.5-397B-A17B
VQA-RAD
69.8
65.6
74.5
65.4
79.9
76.3
SLAKE
76.9
76.4
81.3
54.7
81.6
79.9
OM-VQA
72.9
75.5
80.3
65.4
87.4
85.1
PMC-VQA
58.9
59.9
62.3
41.2
63.3
64.2
MedXpertQA-MM
73.3
63.6
76.0
47.6
65.3
70.0
注記
MathVision:我々のモデルのスコアは固定プロンプト(例:「ステップごとに理由を説明し、最終解答を内側に入れてください」)を用いて評価されています。
\boxed{}。」他のモデルについては、\boxed{}フォーマットの有無の実行のうち高い方のスコアを報告します。BabyVision:我々のモデルのスコアはCI(コードインタープリタ)を有効にして報告しています;CI無しでは結果は43.3です。
V*:我々のモデルのスコアはCI(コードインタープリタ)を有効にして報告しています;CI無しでは結果は91.1です。
空欄(--)はスコアがまだ利用できないか該当しないことを示します。
最終更新
役に立ちましたか?

