💜Qwen3.5 - 如何本地运行指南

在本地设备上运行新的 Qwen3.5 LLM,包括中等规模:Qwen3.5-35B-A3B、27B、122B-A10B, 小型:Qwen3.5-0.8B、2B、4B、9B 以及 397B-A17B!

Qwen3.5 是阿里巴巴的新模型家族,包括 Qwen3.5-35B-A3B, 27B, 122B-A10B 和 397B-A17B 以及新的 Small 系列:Qwen3.5-0.8B、2B、4B 和 9B。该多模态混合推理大模型在其规模内表现最强。它们支持 256K 上下文 覆盖 201 种语言,具有 思考 + 非-思考,并在具代理能力的编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 模型可在 22GB Mac / 内存 设备上运行。查看全部 GGUFs 在此arrow-up-right.

circle-check

所有上传均使用 Unsloth Dynamic 2.0arrow-up-right 以实现最先进的量化性能——因此 4-bit 会将重要层提升为 8 或 16 位。感谢 Qwen 在第 0 天就为 Unsloth 提供访问权限。你也可以 微调 Qwen3.5 使用 Unsloth。

circle-info

要启用或禁用思考,请参见 Qwen3.5。Qwen3.5 Small 模型默认禁用。另请参见 LM Studio 指南 以启用思考切换。

35B-A3B27B122B-A10B397B-A17B微调 Qwen3.50.8B • 2B • 4B • 9B

⚙️ 使用指南

表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

Qwen3.5
3 位
4 位
6 位
8 位
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

circle-check

27B35B-A3B之间,如果您想要稍微更准确的结果但无法容纳在设备中,请使用 27B。若想要更快的推理速度,请选择 35B-A3B。

推荐设置

  • 最大上下文窗口: 262,144 (可通过 YaRN 扩展到 1M)

  • presence_penalty = 0.0 到 2.0 默认情况下这是关闭的,但为减少重复,您可以使用此项,然而使用更高的值可能会导致 性能略微下降

  • 适当的输出长度: 32,768 用于大多数查询的令牌数量

circle-info

如果您得到乱码,可能是上下文长度设置过低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。

由于 Qwen3.5 是混合推理,思考模式和非思考模式有不同设置:

思考模式:

通用任务
精确编码任务(例如 WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

思考模式(用于通用任务):

思考模式(用于精确编码任务):

指令(非思考)模式设置:

通用任务
推理任务

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

重复惩罚 = 禁用或 1.0

重复惩罚 = 禁用或 1.0

circle-exclamation

指令(非思考)用于通用任务:

指令(非思考)用于推理任务:

Qwen3.5 推理教程:

因为 Qwen3.5 有许多不同规模,我们将在所有推理工作负载中使用 Dynamic 4-bit MXFP4_MOE GGUF 变体。点击下方以导航到指定的模型说明:

Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B • 2B • 4B • 9B)LM Studio

Unsloth Dynamic GGUF 上传:

circle-exclamation

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

在本指南中,我们将使用 Dynamic 4-bit,这在 24GB RAM / Mac 设备上用于快速推理非常好。因为模型在完整 F16 精度下大约只有 72GB,所以我们不必过多担心性能。GGUF: Qwen3.5-35B-A3B-GGUFarrow-up-right

对于这些教程,我们将使用 llama.cpparrow-up-right 以便快速本地推理,尤其是当你有 CPU 时。

1

获取最新的 llama.cpp GitHub 此处arrow-up-right。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

2

如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据您的使用场景,执行以下特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 Q4_K_M 或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5 Small(0.8B • 2B • 4B • 9B)

circle-exclamation

对于 Qwen3.5 Small 系列,因为它们体积很小,你只需在脚本中将模型名称更改为所需的变体。本指南将使用 9B 参数变体。要以接近全精度运行它们,你只需一台具有 12GB RAM / VRAM / 统一内存的设备。GGUFs:

1

获取最新的 llama.cpp GitHub 此处arrow-up-right。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果您想直接使用 llama.cpp 直接加载模型时,可以按下面操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据您的使用场景,执行以下特定命令之一:

circle-check

思考模式(默认禁用)

triangle-exclamation

通用任务:

circle-check

非思考模式默认已开启

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 Q4_K_M 或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-27B

在本指南中,我们将使用 Dynamic 4-bit,在 18GB RAM / Mac 设备上用于快速推理表现良好。GGUF: Qwen3.5-27B-GGUFarrow-up-right

1

获取最新的 llama.cpp GitHub 此处arrow-up-right。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据您的使用场景,执行以下特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 MXFP4_MOE 或类似的其他量化版本,诸如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-122B-A10B

在本指南中,我们将使用 Dynamic 4-bit,在 70GB RAM / Mac 设备上用于快速推理表现良好。GGUF: Qwen3.5-122B-A10B-GGUFarrow-up-right

1

获取最新的 llama.cpp GitHub 此处arrow-up-right。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据您的使用场景,执行以下特定命令之一:

思考模式:

精确编码任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 MXFP4_MOE (动态 4bit)或类似的其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

然后以对话模式运行模型:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于同一性能等级。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUFsarrow-up-right 你可以运行:

  • 3 位:适用于 192GB 内存 系统(例如,192GB 的 Mac)

  • 4-bit(MXFP4):适用于 256GB 内存。Unsloth 4-bit 动态 UD-Q4_K_XL在磁盘上约 ~214GB ——可直接加载到 256GB M3 Ultra

  • 可在 单张 24GB GPU + 256GB 系统内存 上运行 通过MoE 卸载 ,达到

  • 8 位 25+ 令牌/秒 需要

circle-info

~512GB RAM/VRAM 查看 397B 量化基准

1

获取最新的 llama.cpp GitHub 此处arrow-up-right。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF

2

如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 以了解 Unsloth GGUF 的性能表现。

以将其保存到特定位置。请记住模型的最大上下文长度仅为 256K。 思考 按以下方式进行

以将其保存到特定位置。请记住模型的最大上下文长度仅为 256K。 -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \ 按以下方式进行

3

通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 MXFP4_MOE (动态 4bit)或类似的其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试

4

--include "*UD-Q4_K_XL" # 对于 Dynamic 2bit 使用 "*UD-Q2_K_XL*" 您可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2

--mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \

👾 LM Studio 指南 LM Studioarrow-up-right在本指南中,我们将使用

1

,一个用于运行 LLM 的统一 UI 界面。“💡思考”与“非思考”切换可能默认不显示,因此我们需要一些额外步骤来让它工作。 LM Studioarrow-up-right 为您的设备下载

2

。然后打开模型搜索,搜索 'unsloth/qwen3.5',并下载您想要的 GGUF(量化)版本。 思考切换说明: 下载后,打开终端 / PowerShell 并尝试:lms --help

lms get unsloth/qwen3.5-4b 这将获取一个 yaml 文件,从而使您的 GGUF 显示“💡思考”与“非思考”切换。您可以将 4b

更改为您想要的量化版本。 否则,您可以前往arrow-up-right 我们的 LM Studio 页面

正确的参数

🦙 Llama-server 服务 & OpenAI 的 completion 库 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 llama-server

--port 8001 然后在另一个终端,在执行pip install openai

如何启用或禁用推理与思考对于以下命令,您可以使用 'true' 和 'false ' 互换使用。要在 LM Studio 中添加思考切换,请阅读我们的指南.

circle-info

禁用 思考 / 推理,在 llama-server 内使用:

如果您在 Windows 或在 Powershell 中使用: --chat-template-kwargs "{\"enable_thinking\":false}"

circle-info

启用 思考 / 推理,在 llama-server 内使用:

如果您在 Windows 或在 Powershell 中使用: --chat-template-kwargs "{\"enable_thinking\":true}"

triangle-exclamation

以 Qwen3.5-9B 为例启用思考(默认禁用):

然后在 Python 中:

👨‍💻 OpenAI Codex & Claude Code

要通过本地编码代理工作负载运行模型,您可以 参照我们的指南。只需将模型名称更改为所需的 Qwen3.5 变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用我们刚刚设置的 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 设置。

例如,在遵循 Claude Code 的说明后,您将看到:

然后我们可以例如请求 创建一个用于国际象棋的 Python 游戏 :

🔨Qwen3.5 的工具调用

~512GB RAM/VRAM Tool Calling Guide 欲了解如何进行工具调用的更多细节。在新终端中(如果使用 tmux,使用 CTRL+B+D),我们创建一些工具,例如加两个数、执行 Python 代码、执行 Linux 功能等:

然后我们使用下面的函数(复制并粘贴并执行),它们将自动解析函数调用并在任何模型上调用 OpenAI 端点:

在通过启动 Qwen3.5 后, 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 例如在 Qwen3.5 或参见 Tool Calling Guide 以获取更多细节,我们随后可以进行一些工具调用。

📊 基准测试

Unsloth GGUF 基准

我们更新了 Qwen3.5-35B Unsloth 动态量化 在几乎所有方面都处于最先进水平 我们进行了超过 150 次 KL 散度基准测试,总共 9TB 的 GGUF 文件。我们上传了所有研究产物。我们还修复了一个 工具调用 聊天 模板 错误 (影响所有量化上传器)

  • 所有 GGUF 现在已使用 改进的量化 算法 进行了更新。

  • 全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用用例中可见一些改进。

  • Qwen3.5-35B-A3B GGUF 已更新以使用新修复(112B、27B 仍在转换,更新后请重新下载)

  • 99.9% 的 KL 散度显示最先进水平 在帕累托前沿针对 UD-Q4_K_XL、IQ3_XXS 等。

  • 退休 MXFP4 从所有 GGUF 量化中:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除纯 MXFP4_MOE 外。

35B-A3B - KLD 基准(越低越好)
122B-A10B - KLD 基准(越低越好)

在此阅读我们详细的 QWEN3.5 分析 + 基准:

chart-fftQwen3.5 GGUF 基准测试chevron-right

Qwen3.5-397B-A17B 基准

Benjamin Marie(第三方)进行了基准测试arrow-up-right Qwen3.5-397B-A17B 使用 Unsloth GGUF 在一台 750 提示混合套件上 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了以下两项 总体准确率相对错误增加 (量化模型比原始模型犯错的频率增加了多少)。

关键结果(准确率;与原始的变化;相对错误增加):

  • 原始权重: 81.3%

  • UD-Q4_K_XL: 80.5% (−0.8 点;相对错误增加 +4.3%)

  • UD-Q3_K_XL: 80.7% (−0.6 点;相对错误增加 +3.5%)

UD-Q4_K_XLUD-Q3_K_XL 与原始模型非常接近, 在该套件上准确率下降远低于 1 个点 本恩暗示你可以 大幅减少内存占用 (约减少 500 GB)在测试任务上几乎没有或没有实际损失。

如何选择: 在此规模上 Q3 比 Q4 略高完全有可能是正常的运行间方差,所以请将 Q3 和 Q4 视为在该基准中质量基本相当

  • 选择 Q3 如果你想要 最小的占用 / 最佳内存节省

  • 选择 Q4 如果你想要一个 稍微更保守的 选项,具有 相似的 结果

所有列出的量化都采用我们的动态方法论。即使 UD-IQ2_M 也使用相同的动态方法论,尽管转换过程与 UD-Q2-K-XL 不同 UD-IQ2_M 其中 K-XL 通常比 UD-IQ2_M 更快,即使它更大,所以这就是为什么 UD-Q2-K-XL.

可能比

表现更好

官方 Qwen 基准测试: Qwen3.5-35B-A3B、27B 和 122B-A10B 基准,Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准

最后更新于

这有帮助吗?