💜Qwen3.5 - 如何本地运行指南

在本地设备上运行新的 Qwen3.5 系列模型,包括中型:Qwen3.5-35B-A3B、27B、122B-A10B,小型:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!

Qwen3.5 是阿里巴巴的新模型家族,包括 Qwen3.5-35B-A3B, 27B, 122B-A10B 和 397B-A17B 以及新的 Small 系列:Qwen3.5-0.8B、2B、4B 和 9B。混合多模态推理的大模型在其规模内表现最强。它们支持 256K 上下文 跨 201 种语言,具有 思考 + 思考,并在代理编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 型号可在带有 22GB Mac / RAM 的设备上运行。查看所有 此处的 GGUFsarrow-up-right.

circle-check

所有上传都使用 Unsloth Dynamic 2.0arrow-up-right 以实现最新的量化性能——因此 4 位量化将把重要层提升为 8 或 16 位。感谢 Qwen 在第一天就为 Unsloth 提供访问权限。你也可以 微调 Qwen3.5 使用 Unsloth。

circle-info

要启用或禁用思考,请参见 Qwen3.5.Qwen3.5 Small 模型默认禁用思考。另请参见 LM Studio 指南 以启用思考开关。

35B-A3B27B122B-A10B397B-A17B微调 Qwen3.50.8B • 2B • 4B • 9B

⚙️ 使用指南

表格:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

Qwen3.5
3 位
4 位
6 位
8 位
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

27B35B-A3B之间,如果您想要稍微更准确的结果但无法适配您的设备,请使用 27B。若想要更快的推理,请选择 35B-A3B。

推荐设置

  • 最大上下文窗口: 262,144 (可通过 YaRN 扩展到 1M)

  • presence_penalty = 0.0 到 2.0 默认情况下此项为关闭,但要减少重复您可以使用它,不过使用更高的值可能会导致 性能略有下降

  • 适当的输出长度: 32,768 用于大多数查询的令牌数

circle-info

如果你得到的是乱码,可能是你的上下文长度设置得太低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。

由于 Qwen3.5 是混合推理,思考模式和非思考模式的设置不同:

思考模式:

通用任务
精确的编码任务(例如 WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

通用任务的思考模式:

精确编码任务的思考模式:

指令(非思考)模式设置:

通用任务
推理任务

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

circle-exclamation

通用任务的指令(非思考):

推理任务的指令(非思考):

Qwen3.5 推理教程:

因为 Qwen3.5 有许多不同的规模,我们将在所有推理工作负载中使用 Dynamic 4-bit MXFP4_MOE 的 GGUF 变体。点击下面以导航到指定模型说明:

Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF 上传:

circle-exclamation

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

本指南我们将使用 Dynamic 4-bit,这在 24GB RAM / Mac 设备上可实现快速推理。因为模型在完整 F16 精度下大约 72GB,我们不必过于担心性能。GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

在这些教程中,我们将使用 llama.cpparrow-up-right 进行快速本地推理,尤其是当你有 CPU 时。

1

获取最新的 llama.cpp 此处的 GitHubarrow-up-right。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

2

如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,执行下面的特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5 Small(0.8B • 2B • 4B • 9B)

circle-exclamation

对于 Qwen3.5 Small 系列,因为它们非常小,你只需在脚本中将模型名称更改为所需变体。在本指南中我们将使用 9B 参数变体。若要以接近全精度运行它们,你只需要 12GB 的 RAM / VRAM / 统一内存设备。GGUFs:

1

获取最新的 llama.cpp 此处的 GitHubarrow-up-right。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 直接加载模型,你可以如下操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,执行下面的特定命令之一:

circle-check

思考模式(默认禁用)

triangle-exclamation

通用任务:

circle-check

非思考模式默认已开启

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-27B

本指南我们将使用 Dynamic 4-bit,这在 18GB RAM / Mac 设备上可实现快速推理。GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

获取最新的 llama.cpp 此处的 GitHubarrow-up-right。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,执行下面的特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-122B-A10B

本指南我们将使用 Dynamic 4-bit,这在 70GB RAM / Mac 设备上可实现快速推理。GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

获取最新的 llama.cpp 此处的 GitHubarrow-up-right。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,执行下面的特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于相同的性能等级。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUFsarrow-up-right 你可以运行:

  • 3 位: 可适配 192GB 内存 系统(例如,192GB 的 Mac)

  • 4 位(MXFP4): 可适配 256GB 内存。Unsloth 4 位动态 UD-Q4_K_XL~214GB 在磁盘上 - 可直接加载到 256GB M3 Ultra

  • 可在 单个 24GB GPU + 256GB 系统内存 上运行, 通过MoE 卸载, 达到

  • 8 位 25+ 令牌/秒 需要

circle-info

~512GB RAM/VRAM 请参见 397B 量化基准测试

1

获取最新的 llama.cpp 此处的 GitHubarrow-up-right。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 以了解 Unsloth GGUFs 的性能。

将其保存到特定位置。请记住该模型只有最大 256K 的上下文长度。 思考 按以下模式操作:

将其保存到特定位置。请记住该模型只有最大 256K 的上下文长度。 非思考 按以下模式操作:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置用于 GPU 卸载的层数。若你的 GPU 出现内存不足,请尝试调节该项。如果仅使用 CPU 推理,也可移除该项。

👾 LM Studio 指南

在本指南中,我们将使用 LM Studioarrow-up-right,一个用于运行大模型的统一 UI 界面。“💡Thinking”和“Non-thinking”切换默认可能不会出现,因此我们需要一些额外步骤来使其生效。

1

下载 LM Studioarrow-up-right 适用于你的设备。然后打开模型搜索,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化)文件。

2

思考开关说明: 下载后,打开终端 / PowerShell 并尝试: lms --help。然后如果 LM Studio 正常出现并显示许多命令,运行:

这将获取一个 yaml 文件,使你的 GGUF 显示“💡Thinking”和“Non-thinking”切换。你可以将 4b 更改为你希望的量化版本。

否则,你可以转到 我们的 LM Studio 页面arrow-up-right 并下载特定的 yaml 文件。

3

重启 LM Studio,然后加载你下载的模型(带有你下载的思考切换)。你现在应该能看到思考切换已启用。别忘了设置 正确的参数.

🦙 Llama-server 服务 & OpenAI 的完成库

要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 llama-server 在新的终端(例如通过 tmux)中,通过以下命令部署模型:

然后在新终端中,在执行了 pip install openai之后,执行:

🤔 如何启用或禁用推理与思考

对于下面的命令,你可以互换使用 'true' 和 'false'. 要在 LM Studio 中显示思考开关,请阅读我们的指南 禁用.

circle-info

思考 / 推理,在 llama-server 中使用: 或在 Powershell 中使用:

如果您在使用 Windows 启用 --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

并在 Windows 或 Powershell 上: 或在 Powershell 中使用:

如果您在使用 Windows 启用 --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

--model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \

model = "unsloth/Qwen3.5-9B-GGUF",

要通过本地编码代理工作负载运行模型,你可以

按照我们的指南 。只需将模型名称更改为你想要的 'Qwen3.5' 变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用我们刚才设置的llama-server 按照例如 Claude Code 的说明操作后,你将看到:

然后我们可以比如这样请求

创建一个 Python 国际象棋游戏 Qwen3.5 的工具调用 :

🔨有关如何进行工具调用的更多细节,请参见。 在新终端中(如果使用 tmux,使用 CTRL+B+D),我们创建一些工具,比如相加两个数字、执行 Python 代码、执行 Linux 操作等:

~512GB RAM/VRAM Tool Calling Guide import json, subprocess, random

然后我们使用下面的函数(复制并粘贴并执行),这些函数会自动解析函数调用并针对任何模型调用 OpenAI 端点:

在通过启动 Qwen3.5 后,使用 llama-server 像在 Qwen3.5 或参见 Tool Calling Guide 了解更多细节,我们随后可以进行一些工具调用.

📊 基准测试

Unsloth GGUF 基准

我们更新了 Qwen3.5-35B Unsloth 动态量化 在几乎所有方面达到最新水平 我们进行了超过 150 次 KL 散度基准测试,总计 9TB 的 GGUF。我们上传了所有研究工件。我们还修复了一个 工具调用 聊天 模板 错误 (影响所有量化上传器)

  • 所有 GGUF 现在都更新了,带有 改进的量化 算法。

  • 全部使用我们的 全新 imatrix 数据。在聊天、编码、长上下文和工具调用等用例中可见一些改进。

  • Qwen3.5-35B-A3B 的 GGUF 已更新以使用新修复(112B、27B 仍在转换中,更新后请重新下载)

  • 99.9% 的 KL 散度显示处于最新水平 在帕累托前沿上对于 UD-Q4_K_XL、IQ3_XXS 等表现优异。

  • 从所有 GGUF 量化中弃用 MXFP4 除了纯 MXFP4_MOE 外:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。

35B-A3B - KLD 基准(越低越好)
122B-A10B - KLD 基准(越低越好)

在此阅读我们详尽的 Qwen3.5 分析 + 基准:

chart-fftQwen3.5 GGUF 基准chevron-right

Qwen3.5-397B-A17B 基准

Benjamin Marie(第三方)进行了基准测试arrow-up-right Qwen3.5-397B-A17B 使用 Unsloth GGUF 在一台 750 个提示的混合套件上 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了 整体准确率相对错误增加 (量化模型相比原始模型犯错的相对增加程度)。

关键结果(准确率;相对于原始的变化;相对错误增加):

  • 原始权重: 81.3%

  • UD-Q4_K_XL: 80.5% (−0.8 点;相对错误增加 +4.3%)

  • UD-Q3_K_XL: 80.7% (−0.6 点;相对错误增加 +3.5%)

UD-Q4_K_XLUD-Q3_K_XL 与原始模型非常接近, 在此套件上的准确率下降远低于 1 点 在本套件上,Ben 暗示您可以 显著减少内存占用 (大约少 500 GB)在测试任务上几乎没有实际损失。

如何选择: Q3 在此处得分略高于 Q4 完全可能只是此规模的正常运行间差异,因此应将 在此基准中将 Q3 和 Q4 视为质量相近

  • 选择 Q3 如果您想要 最小的占用 / 最佳内存节省

  • 选择 Q4 如果您想要一个 稍微更保守的 选项,具有 相似的 结果

所有列出的量化均采用我们的动态方法论。即使 UD-IQ2_M 也使用相同的动态方法论,然而转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 UD-IQ2_M 更快,尽管它更大,这就是为什么 UD-IQ2_M 可能比 UD-Q2-K-XL.

官方 Qwen 基准

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准

Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准

最后更新于

这有帮助吗?