💜Qwen3.5 - 本地运行指南
在您的本地设备上运行新的 Qwen3.5 LLMs,包括 Qwen3.5-397B-A17B!
Qwen3.5 是阿里巴巴的新模型系列,包括 Qwen3.5-397B-A17B —— 一个具有3970亿参数(17B 活跃参数)的多模态推理模型,其性能可与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 相媲美。它支持 256K 上下文 (可扩展到 1M)覆盖 201 种语言,提供思考与非思考模式,并在编码、视觉、代理、聊天和长上下文任务上表现出色。
完整的 Qwen3.5-397B-A17B 模型 ~807GB 在磁盘上,占用,您可以在 192GB 的 Mac / 内存设备上运行 3-bit,或在 256GB Mac: 上运行 4-bit MXFP4。
Qwen3.5-397B-A17B GGUF 所有上传都使用 Unsloth Dynamic 2.0
⚙️ 以获得最先进的量化性能——因此 4-bit 的重要层会提升到 8 或 16 位。感谢 Qwen 在第零天就为 Unsloth 提供访问权限。
使用指南 Unsloth 的 4-bit 动态量化 UD-Q4_K_XL 使用 214GB 的磁盘空间——这可以直接放入一台256GB M3 Ultra ,并且在一个 1x24GB 卡和 256GB 内存上与 MoE 卸载结合,也能以 25+ 标记/秒 运行良好。3 -bit
量化可适配 192GB RAM,而 8-bit 则需要 512GB RAM/VRAM。
为获得最佳性能,请确保您的可用总内存(VRAM + 系统内存)超过您要下载的量化模型文件的大小。如果不足,llama.cpp 仍然可以通过 SSD/HDD 卸载运行,但推理会变慢。
推荐设置
非思考模式
temperature = 0.6
temperature = 0.7
top_p = 0.95
repeat penalty = disabled or 1.0
repeat penalty = disabled or 1.0
tok_k = 20
tok_k = 20
top_p = 0.8
top_p = 0.8
min_p = 0
262,144最大上下文窗口:presence_penalty = 0.0 to 2.0默认此项关闭,但为减少重复可以启用此项,注意使用更高值可能会导致性能略有下降
思考:,temperature=0.6,top_p=0.95,top_k=20min_p=0
非思考:,temperature=0.7,top_p=0.95,top_k=20top_p=0.8:
32,768适当的输出长度
用于大多数查询的标记数
Qwen3.5-397B-A17B 教程: 在本指南中我们将使用 Dynamic MXFP4_MOE
,它可很好地适配 256GB 内存 / Mac 设备以实现快速推理:
✨ 在 llama.cpp 中运行 获取最新的 llama.cpp 在GitHub(此处) 。您也可以按照下面的构建说明。若您没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF
如果您想直接使用 获取最新的 来加载模型,可以按下面操作:(:Q3_K_XL)是量化类型。您也可以通过 Hugging Face(第 3 点)下载。这与 ollama run 类似。使用 export LLAMA_CACHE="folder" 来强制 获取最新的 保存到特定位置。请记住模型的最大上下文长度为 200K。
按如下方式用于 思考 模式:
按如下方式用于 非思考 模式:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。您可以选择 在本指南中我们将使用 Dynamic (动态 4bit)或其他量化版本如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化 UD-Q2_K_XL 以在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试
您可以编辑 --threads 32 以调整 CPU 线程数, --ctx-size 16384 以调整上下文长度, --n-gpu-layers 2 以设置用于 GPU 卸载的层数。如果您的 GPU 出现显存不足,请尝试调整该值;若仅使用 CPU 推理,则移除此参数。
要禁用思考/推理,请使用 --chat-template-kwargs "{\"enable_thinking\": false}"
🦙 Llama-server 服务与 OpenAI 的 completion 库
为了在生产中部署 Qwen3.5-397B-A17B,我们使用 llama-server 在新终端(例如使用 tmux)中,通过以下命令部署模型:
然后在新终端,在执行 pip install openai之后,执行:
要禁用思考/推理,请使用 --chat-template-kwargs "{\"enable_thinking\": false}"
🔨与 Qwen3.5 的工具调用
详情请参见 Tool Calling Guide 以了解有关如何进行工具调用的更多细节。在新终端中(如果使用 tmux,按 CTRL+B+D),我们创建一些工具,例如加两个数、执行 Python 代码、执行 Linux 操作等:
然后我们使用下面的函数(复制粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:
在通过 llama-server 启动 Qwen3.5 之后, Qwen3.5 如在 Tool Calling Guide 或参见
以获取更多细节,我们就可以进行一些工具调用。
📊 基准测试

您可以在下方查看 Qwen3.5-397B-A17B 的基准表格:
语言基准
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3.5-397B-A17B
87.4
89.5
89.8
85.7
87.1
87.8
MMLU-Pro
95.0
95.6
95.9
92.8
94.5
94.9
MMLU-Redux
67.9
70.6
74.0
67.3
69.2
70.4
SuperGPQA
90.5
92.2
93.4
93.7
94.0
93.0
C-Eval
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
指令遵循
94.8
90.9
93.5
93.4
93.9
92.6
IFEval
75.4
58.0
70.4
70.9
70.2
76.5
IFBench
57.9
54.2
64.2
63.3
62.7
67.6
MultiChallenge
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
长上下文
72.7
74.0
70.7
68.7
70.0
68.7
AA-LCR
54.5
64.4
68.2
60.6
61.0
63.2
LongBench v2
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
STEM
92.4
87.0
91.9
87.4
87.6
88.4
GPQA
35.5
30.8
37.5
30.2
30.1
28.7
HLE
43.3
38.8
48
37.6
--
37.6
HLE-Verified¹
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
推理
87.7
84.8
90.7
85.9
85.0
83.6
LiveCodeBench v6
99.4
92.9
97.3
98.0
95.4
94.8
HMMT Feb 25
100
93.3
93.3
94.7
91.1
92.7
HMMT Nov 25
86.3
84.0
83.3
83.9
81.8
80.9
IMOAnswerBench
96.7
93.3
90.6
93.3
93.3
91.3
AIME26
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
通用代理
63.1
77.5
72.5
67.7
68.3
72.9
BFCL-V4
87.1
91.6
85.4
84.6
77.0
86.7
TAU2-Bench
38.2
56.3
51.6
40.9
41.9
49.7
VITA-Bench
44.6
33.9
23.3
28.7
14.5
34.3
DeepPlanning
43.8
43.5
36.4
18.8
27.8
38.3
工具十项全能
57.5
42.3
53.9
33.5
29.5
46.1
MCP-Mark
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
搜索代理³
45.5
43.4
45.8
49.8
50.2
48.3
带工具的 HLE
65.8
67.8
59.2
53.9
--/74.9
69.0/78.6
BrowseComp
76.1
62.4
66.8
60.9
--
70.3
BrowseComp-zh
76.8
76.4
68.0
57.9
72.7
74.0
WideSearch
45.0
47.7
45.5
46.9
57.4
46.9
Seal-0
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
多语种能力
89.5
90.1
90.6
84.4
86.0
88.5
MMMLU
83.7
85.7
87.7
78.5
82.3
84.7
MMLU-ProX
54.6
56.7
56.7
54.2
56.0
59.1
NOVA-63
87.5
86.2
90.5
82.3
83.3
85.6
INCLUDE
90.9
91.6
93.2
86.0
89.3
89.8
Global PIQA
62.5
79.0
81.6
64.7
43.1
73.3
PolyMATH
78.8
79.7
80.7
77.6
77.6
78.9
WMT24++
88.4
79.2
87.5
84.0
72.8
88.2
MAXIFE
知识
基准
GPT5.2
Claude 4.5 Opus
Gemini-3 Pro
Qwen3-Max-Thinking
K2.5-1T-A32B
编码代理
80.0
80.9
76.2
75.3
76.8
76.4
SWE-bench Verified
72.0
77.5
65.0
66.7
73.0
72.0
SWE-bench Multilingual
68.7
68.6
62.4
57.5
61.3
68.3
SecCodeBench
54.0
59.3
54.2
22.5
50.8
52.5
终端基准 2
https://huggingface.co/datasets/skylenage/HLE-Verified
TAU2-Bench:我们遵循官方设置,但航空领域除外,所有模型均通过应用 Claude Opus 4.5 系统卡中提出的修复进行评估。
MCPMark:GitHub MCP 服务器使用来自 api.githubcopilot.com 的 v0.30.3;Playwright 工具的响应在 32k 标记处被截断。
搜索代理:基于我们模型构建的大多数搜索代理采用一种简单的上下文折叠策略(256k):一旦累计工具响应长度达到预设阈值,较早的工具响应会从历史中被修剪以保持上下文在限制内。
BrowseComp:我们测试了两种策略,简单上下文折叠得到的分数为 69.0,而使用与 DeepSeek-V3.2 和 Kimi K2.5 相同的全部丢弃策略则得到 78.6。
WideSearch:我们使用 256k 的上下文窗口而不进行任何上下文管理。
MMLU-ProX:我们报告 29 种语言的平均准确率。
WMT24++:在难度标注和重平衡后形成的更难子集;我们使用 XCOMET-XXL 报告 55 种语言的平均分数。
MAXIFE:我们报告英文 + 多语种原始提示(共 23 个设置)的准确率。
空白单元(--)表示分数尚不可用或不适用。
视觉语言基准
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
Qwen3-VL-235B-A22B
86.7
80.7
87.2
80.6
84.3
85.0
MMMU
79.5
70.6
81.0
69.3
78.5
79.0
MMMU-Pro
83.0
74.3
86.6
74.6
84.2
88.6
MathVision
83.1
80.0
87.9
85.8
90.1
90.3
Mathvista(mini)
79.0
70.0
86.9
74.8
84.7
87.9
We-Math
86.8
79.7
85.1
82.8
84.4
86.3
DynaMath
9
3
10
4
9
12
ZEROBench
33.2
28.4
39.0
28.4
33.5
41.0
ZEROBench_sub
34.4
14.2
49.7
22.2
36.5
52.3/43.3
BabyVision
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
通用 VQA
83.3
77.0
83.3
81.3
81.0
83.9
RealWorldQA
77.1
73.2
83.1
78.7
80.5
83.8
MMStar
65.2
64.1
68.6
66.7
69.8
71.4
HallusionBench
88.2
89.2
93.7
89.7
94.2
93.7
MMBench (EN-DEV-v1.1)
55.8
65.7
73.2
61.3
71.2
67.1
SimpleVQA
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
文本识别与文档理解
85.7
87.7
88.5
84.5
88.8
90.8
OmniDocBench1.5
82.1
68.5
81.4
66.1
77.5
80.8
CharXiv(RQ)
--
61.9
60.5
56.2
58.5
61.5
MMLongBench-Doc
70.3
76.9
79.0
81.5
79.7
82.0
CC-OCR
92.2
87.7
94.1
89.2
90.8
93.9
AI2D_TEST
80.7
85.8
90.4
87.5
92.3
93.1
OCRBench
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
空间智能
59.8
46.8
70.5
52.5
--
67.5
ERQA
91.9
90.6
97.3
93.7
94.1
97.2
CountBench
--
--
84.1
91.1
87.8
92.3
RefCOCO(avg)
--
--
46.3
43.2
--
47.0
ODInW13
81.3
75.7
61.2
84.3
77.4
84.5
EmbSpatialBench
--
--
65.5
69.9
--
73.6
RefSpatialBench
68.8
78.8
72.8
66.8
68.2
81.6
LingoQA
75.9
67.0
88.0
85.9
77.0
95.8/91.1
V*
--
--
--
11.0
--
12.5
Hypersim
--
--
--
34.9
--
38.3
SUNRGBD
--
--
--
13.9
--
16.0
Nuscene
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
视频理解
86
77.6
88.4
83.8
87.4
87.5
VideoMME (含子集)
85.8
81.4
87.7
79.0
83.2
83.7
VideoMME (不含子集)
85.9
84.4
87.6
80.0
86.6
84.7
VideoMMMU
85.6
81.7
83.0
83.8
85.0
86.7
MLVU (M-Avg)
78.1
67.2
74.1
75.2
73.5
77.6
MVBench
73.7
57.3
76.2
63.6
75.9
75.5
LVBench
80.8
77.3
77.5
71.1
80.4
75.4
MMVU
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
视觉代理
--
45.7
72.7
62.0
--
65.6
ScreenSpot Pro
38.2
66.3
--
38.1
63.3
62.2
OSWorld-Verified
--
--
--
63.7
--
66.8
AndroidWorld
知识
基准
GPT5.2
Claude 4.5 Opus
STEM 与 拼图
Qwen3-Max-Thinking
K2.5-1T-A32B
医学
69.8
65.6
74.5
65.4
79.9
76.3
VQA-RAD
76.9
76.4
81.3
54.7
81.6
79.9
SLAKE
72.9
75.5
80.3
65.4
87.4
85.1
OM-VQA
58.9
59.9
62.3
41.2
63.3
64.2
PMC-VQA
73.3
63.6
76.0
47.6
65.3
70.0
终端基准 2
MedXpertQA-MM
MathVision:我们模型的评分使用固定提示评估,例如,“请逐步推理,并将你的最终答案置于\\boxed{}MathVision:我们模型的评分使用固定提示评估,例如,“请逐步推理,并将你的最终答案置于。”对于其它模型,我们报告有无该格式化时两次运行中得分更高者。
BabyVision:我们的模型得分在启用 CI(代码解释器)时报告;未启用 CI 时结果为 43.3。','t373':'V*: 我们的模型得分在启用 CI(代码解释器)时报告;未启用 CI 时结果为 91.1。
MAXIFE:我们报告英文 + 多语种原始提示(共 23 个设置)的准确率。
最后更新于
这有帮助吗?

