💜Qwen3.5 - ローカルでの実行方法ガイド

Qwen3.5-397B-A17B を含む新しい Qwen3.5 LLM をローカルのデバイスで実行しましょう!

Qwen3.5はアリババの新しいモデルファミリで、Qwen3.5-397B-A17B(397Bパラメータ、17Bアクティブ)を含むマルチモーダル推論モデルで、性能はGemini 3 Pro、Claude Opus 4.5、GPT-5.2に匹敵します。これらはサポートしています 256Kコンテキスト (1Mまで拡張可能)201言語に対応し、思考モードと非思考モードを提供し、コーディング、視覚、エージェント、チャット、長文コンテキストのタスクに優れています。

フルのQwen3.5-397B-A17Bモデルは 約807GB のディスク容量が必要で、3ビット量子化は 192GB のMac/RAMデバイスで、または4ビットMXFP4は 256GB Mac: Qwen3.5-397B-A17B GGUFarrow-up-right

すべてのアップロードはUnslothを使用しています Dynamic 2.0 で最先端の量子化性能を実現します ― つまり4ビットでは重要なレイヤーが8ビットまたは16ビットにアップキャストされます。Unslothにデイゼロでのアクセスを提供してくれたQwenに感謝します。

⚙️ 使用ガイド

Unslothの4ビット動的量子化UD-Q4_K_XLは 214GB のディスク空間を使用します — これは直接 256GB M3 Ultraに収まり、 1枚の24GBカードと256GBのRAM でMoEオフローディングを用いて25+ トークン/秒を実現します。3ビット 量子化は192GB RAMに収まり、8ビットは512GBのRAM/VRAMが必要です。

circle-check

推奨設定

Qwen3.5はハイブリッド推論であるため、思考モードと非思考モードは異なる設定が必要です:

思考モード
非思考モード

temperature = 0.6

temperature = 0.7

top_p = 0.95

top_p = 0.8

tok_k = 20

tok_k = 20

min_p = 0

min_p = 0

repeat penalty = 無効 または 1.0

repeat penalty = 無効 または 1.0

  • 最大コンテキストウィンドウ: 262,144

  • presence_penalty = 0.0 から 2.0 デフォルトではこれがオフですが、繰り返しを減らすために使用できます。ただし高い値を使うと若干性能が低下する可能性があります

  • Thinking: temperature=0.6, top_p=0.95, top_k=20, min_p=0

  • 非思考: temperature=0.7, top_p=0.8, top_k=20, min_p=0

  • 十分な出力長: 32,768 ほとんどのクエリに対するトークン数

Qwen3.5-397B-A17B チュートリアル:

このガイドではダイナミックを利用します MXFP4_MOEarrow-up-right は高速推論のために256GB RAM / Macデバイスに丁度収まります:

✨ llama.cppで実行する

1

最新の llama.cpp GitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

2

直接モデルを読み込むために llama.cpp モデルを直接ロードするには、以下を実行できます:(:Q3_K_XL)は量子化タイプです。Hugging Face(ポイント 3)経由でもダウンロードできます。これは似ています ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。

次に従ってください(用途別): thinking モード:

次に従ってください(用途別): 非思考 モード:

3

(以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます MXFP4_MOE (動的4ビット)または他の量子化バージョンのような UD-Q4_K_XL 。サイズと精度のバランスを取るために少なくとも2ビットの動的量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。

4

次の --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

circle-info

思考/推論を無効にするには、次を使用してください --chat-template-kwargs "{\"enable_thinking\": false}"

🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ

Qwen3.5-397B-A17Bを本番展開するには、我々は次を使用します llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:

🔨Qwen3.5でのツールコーリング

詳細については Tool Calling Guide を参照してください。新しい端末で(tmuxを使用している場合はCTRL+B+Dを使用)、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなど多くのツールを作成します:

次に以下の関数を使用します(コピー&ペーストして実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:

Qwen3.5を起動した後、 llama-server のように)、 Qwen3.5 または詳細は Tool Calling Guide 詳細については、いくつかのツール呼び出しを行うことができます。

📊 ベンチマーク

以下でQwen3.5-397B-A17Bのベンチマークを表形式でさらにご覧いただけます:

言語ベンチマーク

知識

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMLU-Pro

87.4

89.5

89.8

85.7

87.1

87.8

MMLU-Redux

95.0

95.6

95.9

92.8

94.5

94.9

SuperGPQA

67.9

70.6

74.0

67.3

69.2

70.4

C-Eval

90.5

92.2

93.4

93.7

94.0

93.0

指示追従(Instruction Following)

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

IFEval

94.8

90.9

93.5

93.4

93.9

92.6

IFBench

75.4

58.0

70.4

70.9

70.2

76.5

MultiChallenge

57.9

54.2

64.2

63.3

62.7

67.6

長文コンテキスト

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

AA-LCR

72.7

74.0

70.7

68.7

70.0

68.7

LongBench v2

54.5

64.4

68.2

60.6

61.0

63.2

STEM

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

GPQA

92.4

87.0

91.9

87.4

87.6

88.4

HLE

35.5

30.8

37.5

30.2

30.1

28.7

HLE-Verified¹

43.3

38.8

48

37.6

--

37.6

推論(Reasoning)

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

LiveCodeBench v6

87.7

84.8

90.7

85.9

85.0

83.6

HMMT Feb 25

99.4

92.9

97.3

98.0

95.4

94.8

HMMT Nov 25

100

93.3

93.3

94.7

91.1

92.7

IMOAnswerBench

86.3

84.0

83.3

83.9

81.8

80.9

AIME26

96.7

93.3

90.6

93.3

93.3

91.3

ジェネラルエージェント

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

BFCL-V4

63.1

77.5

72.5

67.7

68.3

72.9

TAU2-Bench

87.1

91.6

85.4

84.6

77.0

86.7

VITA-Bench

38.2

56.3

51.6

40.9

41.9

49.7

DeepPlanning

44.6

33.9

23.3

28.7

14.5

34.3

Tool Decathlon

43.8

43.5

36.4

18.8

27.8

38.3

MCP-Mark

57.5

42.3

53.9

33.5

29.5

46.1

Search Agent³

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

ツール付きHLE

45.5

43.4

45.8

49.8

50.2

48.3

BrowseComp

65.8

67.8

59.2

53.9

--/74.9

69.0/78.6

BrowseComp-zh

76.1

62.4

66.8

60.9

--

70.3

WideSearch

76.8

76.4

68.0

57.9

72.7

74.0

Seal-0

45.0

47.7

45.5

46.9

57.4

46.9

多言語性

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMLU

89.5

90.1

90.6

84.4

86.0

88.5

MMLU-ProX

83.7

85.7

87.7

78.5

82.3

84.7

NOVA-63

54.6

56.7

56.7

54.2

56.0

59.1

INCLUDE

87.5

86.2

90.5

82.3

83.3

85.6

Global PIQA

90.9

91.6

93.2

86.0

89.3

89.8

PolyMATH

62.5

79.0

81.6

64.7

43.1

73.3

WMT24++

78.8

79.7

80.7

77.6

77.6

78.9

MAXIFE

88.4

79.2

87.5

84.0

72.8

88.2

コーディングエージェント

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

SWE-bench 検証済み

80.0

80.9

76.2

75.3

76.8

76.4

SWE-bench 多言語

72.0

77.5

65.0

66.7

73.0

72.0

SecCodeBench

68.7

68.6

62.4

57.5

61.3

68.3

Terminal Bench 2

54.0

59.3

54.2

22.5

50.8

52.5

注記

  • HLE-Verified:Humanity’s Last Exam(HLE)の検証済みかつ修正版で、透明なコンポーネント別検証プロトコルと細分化された誤り分類を伴います。データセットは以下でオープンソース化しています https://huggingface.co/datasets/skylenage/HLE-Verifiedarrow-up-right.

  • TAU2-Bench:公式の設定に従いますが、航空会社ドメインについては例外で、すべてのモデルはClaude Opus 4.5のシステムカードで提案された修正を適用して評価しています。

  • MCPMark:GitHub MCPサーバーはapi.githubcopilot.comのv0.30.3を使用しています;Playwrightツールのレスポンスは32kトークンで切り詰められます。

  • 検索エージェント:我々のモデル上に構築されたほとんどの検索エージェントは単純なコンテキスト折り畳み戦略(256k)を採用しています:ツールレスポンスの累積長が事前設定の閾値に達すると、コンテキストを制限するために履歴から古いツールレスポンスが剪定されます。

  • BrowseComp:我々は2つの戦略をテストしました。単純なコンテキスト折り畳みは69.0を達成し、DeepSeek-V3.2およびKimi K2.5と同じ全破棄戦略を使うと78.6を達成しました。

  • WideSearch:コンテキスト管理なしで256kのコンテキストウィンドウを使用しています。

  • MMLU-ProX:29言語の平均精度を報告しています。

  • WMT24++:難易度ラベリングとリバランス後のWMT24のより難しいサブセット;XCOMET-XXLを用いて55言語の平均スコアを報告します。

  • MAXIFE:英語+多言語の元プロンプト(合計23設定)での精度を報告します。

  • 空欄(--)はスコアがまだ利用できないか該当しないことを示します。

ビジョン言語ベンチマーク

STEMとパズル

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMU

86.7

80.7

87.2

80.6

84.3

85.0

MMMU-Pro

79.5

70.6

81.0

69.3

78.5

79.0

MathVision

83.0

74.3

86.6

74.6

84.2

88.6

Mathvista(mini)

83.1

80.0

87.9

85.8

90.1

90.3

We-Math

79.0

70.0

86.9

74.8

84.7

87.9

DynaMath

86.8

79.7

85.1

82.8

84.4

86.3

ZEROBench

9

3

10

4

9

12

ZEROBench_sub

33.2

28.4

39.0

28.4

33.5

41.0

BabyVision

34.4

14.2

49.7

22.2

36.5

52.3/43.3

一般VQA

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

RealWorldQA

83.3

77.0

83.3

81.3

81.0

83.9

MMStar

77.1

73.2

83.1

78.7

80.5

83.8

HallusionBench

65.2

64.1

68.6

66.7

69.8

71.4

MMBench (EN-DEV-v1.1)

88.2

89.2

93.7

89.7

94.2

93.7

SimpleVQA

55.8

65.7

73.2

61.3

71.2

67.1

文字認識と文書理解

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

OmniDocBench1.5

85.7

87.7

88.5

84.5

88.8

90.8

CharXiv(RQ)

82.1

68.5

81.4

66.1

77.5

80.8

MMLongBench-Doc

--

61.9

60.5

56.2

58.5

61.5

CC-OCR

70.3

76.9

79.0

81.5

79.7

82.0

AI2D_TEST

92.2

87.7

94.1

89.2

90.8

93.9

OCRBench

80.7

85.8

90.4

87.5

92.3

93.1

空間知能

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ERQA

59.8

46.8

70.5

52.5

--

67.5

CountBench

91.9

90.6

97.3

93.7

94.1

97.2

RefCOCO(平均)

--

--

84.1

91.1

87.8

92.3

ODInW13

--

--

46.3

43.2

--

47.0

EmbSpatialBench

81.3

75.7

61.2

84.3

77.4

84.5

RefSpatialBench

--

--

65.5

69.9

--

73.6

LingoQA

68.8

78.8

72.8

66.8

68.2

81.6

V*

75.9

67.0

88.0

85.9

77.0

95.8/91.1

Hypersim

--

--

--

11.0

--

12.5

SUNRGBD

--

--

--

34.9

--

38.3

Nuscene

--

--

--

13.9

--

16.0

ビデオ理解

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VideoMME(字幕あり)

86

77.6

88.4

83.8

87.4

87.5

VideoMME(字幕なし)

85.8

81.4

87.7

79.0

83.2

83.7

VideoMMMU

85.9

84.4

87.6

80.0

86.6

84.7

MLVU(M平均)

85.6

81.7

83.0

83.8

85.0

86.7

MVBench

78.1

67.2

74.1

75.2

73.5

77.6

LVBench

73.7

57.3

76.2

63.6

75.9

75.5

MMVU

80.8

77.3

77.5

71.1

80.4

75.4

ビジュアルエージェント

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ScreenSpot Pro

--

45.7

72.7

62.0

--

65.6

OSWorld-Verified

38.2

66.3

--

38.1

63.3

62.2

AndroidWorld

--

--

--

63.7

--

66.8

医療

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VQA-RAD

69.8

65.6

74.5

65.4

79.9

76.3

SLAKE

76.9

76.4

81.3

54.7

81.6

79.9

OM-VQA

72.9

75.5

80.3

65.4

87.4

85.1

PMC-VQA

58.9

59.9

62.3

41.2

63.3

64.2

MedXpertQA-MM

73.3

63.6

76.0

47.6

65.3

70.0

注記

  • MathVision:我々のモデルのスコアは固定プロンプト(例:「ステップごとに理由を説明し、最終解答を内側に入れてください」)を用いて評価されています。 \boxed{}。」他のモデルについては、 \boxed{} フォーマットの有無の実行のうち高い方のスコアを報告します。

  • BabyVision:我々のモデルのスコアはCI(コードインタープリタ)を有効にして報告しています;CI無しでは結果は43.3です。

  • V*:我々のモデルのスコアはCI(コードインタープリタ)を有効にして報告しています;CI無しでは結果は91.1です。

  • 空欄(--)はスコアがまだ利用できないか該当しないことを示します。

最終更新

役に立ちましたか?