💜Qwen3.5 - 如何本地运行指南

在本地设备上运行新的 Qwen3.5 LLMs,包括中等:Qwen3.5-35B-A3B、27B、122B-A10B,Small:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!

Qwen3.5 是阿里巴巴的新模型系列,包括 Qwen3.5-35B-A3B, 27B, 122B-A10B 和 397B-A17B 以及新的 小型 系列:Qwen3.5-0.8B、2B、4B 和 9B。多模态混合推理大模型在各自规模上表现最强。它们支持 256K 上下文 覆盖 201 种语言,具有 思考 + 思考,并且在具有代理能力的编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 模型可在 22GB Mac / RAM 设备上运行。查看所有 GGUFs 在此arrow-up-right.

circle-check

所有上传都使用 Unsloth Dynamic 2.0arrow-up-right 以实现 SOTA 量化性能 - 因此 4 位量化会将重要层提升为 8 或 16 位。感谢 Qwen 在零日向 Unsloth 提供访问权限。你也可以 微调 Qwen3.5 使用 Unsloth。

circle-info

要启用或禁用思考,请参见 Qwen3.5。Qwen3.5 小型模型默认禁用。另见 LM Studio 指南 以启用 思考 切换。

35B-A3B27B122B-A10B397B-A17B微调 Qwen3.50.8B • 2B • 4B • 9B

⚙️ 使用指南

表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

Qwen3.5
3 位
4 位
6 位
8 位
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

27B35B-A3B之间,如果您想要稍微更准确的结果且无法适配设备,请使用 27B。若想要更快的推理,请选择 35B-A3B。

推荐设置

  • 最大上下文窗口: 262,144 (可通过 YaRN 扩展到 1M)

  • presence_penalty = 0.0 到 2.0 默认此项为关闭,但为减少重复你可以使用此设置,然而使用更高的值可能导致 性能略有下降

  • 适当的输出长度: 32,768 适用于大多数查询的令牌数

circle-info

如果你得到的是乱码,可能是你的上下文长度设置过低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。

由于 Qwen3.5 是混合推理,思考模式和非思考模式有不同设置:

思考模式:

通用任务
精确编码任务(例如 WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

通用任务的思考模式:

精确编码任务的思考模式:

指令(非思考)模式设置:

通用任务
推理任务

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

circle-exclamation

通用任务的指令(非思考)模式:

用于推理任务的指令(非思考)模式:

Qwen3.5 推理教程:

因为 Qwen3.5 有许多不同规模,我们将为所有推理工作负载使用 Dynamic 4-bit MXFP4_MOE GGUF 变体。点击下方以跳转到指定模型说明:

Qwen3.5-35B-A3B27B122B-A10B397B-A17B小型(0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF 上传:

circle-exclamation

Qwen3.5-35B-A3B

在本指南中我们将使用 Dynamic 4-bit,在 24GB RAM / Mac 设备上可实现快速推理效果。因为模型在完整 F16 精度下仅约 72GB,所以我们不必太担心性能问题。GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

🦙 Llama.cpp 指南

对于这些教程,我们将使用 llama.cpparrow-up-right 用于快速本地推理,特别是如果你有 CPU 的情况下。

1

获取最新的 llama.cpp GitHub 在此arrow-up-right。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,遵循下面的特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5 Small(0.8B • 2B • 4B • 9B)

circle-exclamation

对于 Qwen3.5 Small 系列,因为它们很小,你只需在脚本中将模型名称更改为所需变体。对于本指南我们将使用 9B 参数变体。要以接近全精度运行它们,你只需要 12GB 的内存 / 显存 / 统一内存设备。GGUF 文件:

1

获取最新的 llama.cpp GitHub 在此arrow-up-right。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 直接加载模型,你可以如下操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与...类似 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,遵循下面的特定命令之一:

circle-check

思考模式(默认禁用)

triangle-exclamation

通用任务:

circle-check

非思考模式默认已启用

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-27B

在本指南中我们将使用动态 4 位,它在 18GB 内存 / Mac 设备上用于快速推理效果很好。GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

获取最新的 llama.cpp GitHub 在此arrow-up-right。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,遵循下面的特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-122B-A10B

在本指南中我们将使用动态 4 位,它在 70GB 内存 / Mac 设备上用于快速推理效果很好。GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

获取最新的 llama.cpp GitHub 在此arrow-up-right。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例,遵循下面的特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4 位)或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于相同的性能档次。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUF 文件arrow-up-right 你可以运行:

  • 3 位: 适用于 192GB 内存 系统(例如,一台 192GB 的 Mac)

  • 4 位(MXFP4): 适用于 256GB 内存。Unsloth 4 位动态 UD-Q4_K_XL在磁盘上约为 ~214GB - 直接加载在一个 256GB M3 Ultra

  • 运行于 单个 24GB GPU + 256GB 系统内存 通过 MoE 卸载,达到 25+ 令牌/秒

  • 8 位 需要 ~512GB 内存/显存

circle-info

参见 397B 量化基准 了解 Unsloth GGUF 的性能。

1

获取最新的 llama.cpp GitHub 在此arrow-up-right。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 以保存到特定位置。请记住该模型的最大上下文长度仅为 256K。

请按此操作以获得 思考 模式:

请按此操作以获得 非思考 模式:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4 位)或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试

4

你可以编辑 --threads 32 以设置 CPU 线程数量, --ctx-size 16384 以设置上下文长度, --n-gpu-layers 2 以设置用于 GPU 卸载的层数。如果你的 GPU 出现内存不足,请尝试调整它。如果你仅使用 CPU 推理,也请移除该参数。

👾 LM Studio 指南

在本指南中,我们将使用 LM Studioarrow-up-right,一个用于运行大型语言模型的统一界面。'💡Thinking' 和 'Non-thinking' 切换可能默认未显示,因此我们需要一些额外步骤来使其工作。

1

下载 LM Studioarrow-up-right 适用于你的设备。然后打开模型搜索,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化)文件。

2

思考切换说明: 下载后,打开你的终端 / PowerShell 并尝试: lms --help。然后如果 LM Studio 正常出现并显示许多命令,运行:

这将获取一个 yaml 文件,使你的 GGUF 出现 '💡Thinking' 和 'Non-thinking' 切换。你可以将 4b 更改为你想要的量化类型。

或者,你可以去 我们的 LM Studio 页面arrow-up-right 并下载特定的 yaml 文件。

3

重启 LM Studio,然后加载你下载的模型(带有你下载的特定思考切换)。现在你应该能看到思考切换已启用。别忘了设置 正确的参数.

🦙 Llama-server 服务 & OpenAI 的 completion 库

为了将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下方式部署模型:

然后在新的终端中,完成以下操作后 pip install openai,执行:

🤔 如何启用或禁用推理与思考

对于下面的命令,你可以互换使用 'true' 和 'false '。要使 LM Studio 的思考切换,阅读我们的指南.

circle-info

禁用 思考 / 推理,请在 llama-server 中使用:

如果你在 Windows 或在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

启用 思考 / 推理,请在 llama-server 中使用:

如果你在 Windows 或在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

以 Qwen3.5-9B 为例要启用思考(默认禁用):

然后在 Python 中:

👨‍💻 OpenAI Codex 与 Claude Code

要通过本地的编程代理工作负载运行模型,你可以 遵循我们的指南。只需将模型名 'GLM-4.7-Flash' 更改为你想要的 'Qwen3.5' 变体,并确保按照正确的 Qwen3.5 参数和使用说明进行。使用我们刚刚设置的配置。 llama-server 我们刚才设置的那套。

例如,按照 Claude Code 的说明后你将看到:

然后我们可以例如请求 创建一个象棋的 Python 游戏 :

🔨Qwen3.5 的工具调用

参见 Tool Calling Guide 有关如何进行工具调用的更多详细信息,请参阅。在新终端中(如果使用 tmux,请按 CTRL+B+D),我们创建一些工具,例如相加两个数字、执行 Python 代码、执行 Linux 功能等:

然后我们使用下面的函数(复制并粘贴并执行),它们将自动解析函数调用并为任何模型调用 OpenAI 端点:

通过以下方式启动 Qwen3.5 后, llama-server 就像在 Qwen3.5 或参见 Tool Calling Guide 了解更多细节,然后我们可以进行一些工具调用。

📊 基准测试

Unsloth GGUF 基准

我们更新了 Qwen3.5-35B Unsloth 动态量化, 成为最先进(SOTA), 在几乎所有方面。我们进行了超过 150 次 KL 散度基准测试,累计 9TB 的 GGUF 文件,。我们上传了所有研究成果。我们还修复了一个 工具调用 聊天模板 错误, (影响所有量化上传器)

  • 所有 GGUF 现已使用 改进的量化 算法进行更新。

  • 全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用用例中可见一些改进。

  • Qwen3.5-35B-A3B 的 GGUF 已更新以使用新的修复(112B、27B 仍在转换,更新后请重新下载)

  • 99.9% 的 KL 散度显示为最先进, 在帕累托前沿针对 UD-Q4_K_XL、IQ3_XXS 等。

  • 弃用 MXFP4 从所有 GGUF 量化中:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除了纯 MXFP4_MOE。

35B-A3B - KLD 基准(值越低越好)
122B-A10B - KLD 基准(值越低越好)

在此阅读我们详细的 QWEN3.5 分析 + 基准:

chart-fftQwen3.5 GGUF 基准chevron-right

Qwen3.5-397B-A17B 基准测试

Benjamin Marie(第三方)基准测试了arrow-up-right Qwen3.5-397B-A17B 在一台 使用 Unsloth GGUF 的 机器上, 750 条提示混合套件, (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了 总体准确率,相对错误增加, (量化模型比原始模型更常出错的程度)。

关键结果(准确率;相对于原始的变化;相对错误增加):

  • 原始权重: 81.3%

  • UD-Q4_K_XL: 80.5% (−0.8 点;相对错误增加 +4.3%)

  • UD-Q3_K_XL: 80.7% (−0.6 点;相对错误增加 +3.5%)

UD-Q4_K_XLUD-Q3_K_XL 与原始模型非常接近, 在该套件上的准确率下降远低于 1 个点, Ben 暗示你可以, 大幅减少内存占用, (约少 ~500 GB,)在所测试的任务上几乎没有实际损失。

如何选择: 在这个基准中 Q3 比 Q4 稍高是完全可能的,这在此规模上属于正常的运行间方差,因此请将 Q3 和 Q4 视为在效果上质量相似, 在此基准中:

  • 选择 Q3 如果你想要 最小的占用 / 最佳内存节省,

  • 选择 Q4 如果你想要一个 稍微更保守的, 选项,具有 相似的 结果,

所有列出的量化都使用我们的动态方法。即使 UD-IQ2_M 也使用相同的动态方法,然而转换过程与 UD-Q2-K-XL 不同, UD-IQ2_M 其中 K-XL 通常比 更快, UD-IQ2_M 尽管它更大,所以这就是为什么 UD-Q2-K-XL.

可能比 表现更好,

官方 Qwen 基准,

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准,

Qwen3.5-397B-A17B 基准测试

最后更新于

这有帮助吗?