💜Qwen3.5 - 如何本地运行指南
在本地设备上运行新的 Qwen3.5 系列模型,包括中型:Qwen3.5-35B-A3B、27B、122B-A10B,小型:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!
Qwen3.5 是阿里巴巴的新模型家族,包括 Qwen3.5-35B-A3B, 27B, 122B-A10B 和 397B-A17B 以及新的 Small 系列:Qwen3.5-0.8B、2B、4B 和 9B。混合多模态推理的大模型在其规模内表现最强。它们支持 256K 上下文 跨 201 种语言,具有 思考 + 非思考,并在代理编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 型号可在带有 22GB Mac / RAM 的设备上运行。查看所有 此处的 GGUFs.
3 月 5 日更新: 重新下载 Qwen3.5-35B, 27B, 122B 和 397B.
所有 GGUF 现在都更新了,带有 改进的量化 算法。
全部使用我们的 全新 imatrix 数据。在聊天、编码、长上下文和工具调用等用例中可见一些改进。
工具调用已改进 在我们修复聊天模板之后。 修复是通用的 并适用于 任何 Qwen3.5 格式和 任何 上传器。
查看新的 GGUF 基准测试 以获取 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们将从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。
所有上传都使用 Unsloth Dynamic 2.0 以实现最新的量化性能——因此 4 位量化将把重要层提升为 8 或 16 位。感谢 Qwen 在第一天就为 Unsloth 提供访问权限。你也可以 微调 Qwen3.5 使用 Unsloth。
要启用或禁用思考,请参见 Qwen3.5.Qwen3.5 Small 模型默认禁用思考。另请参见 LM Studio 指南 以启用思考开关。
35B-A3B27B122B-A10B397B-A17B微调 Qwen3.50.8B • 2B • 4B • 9B
⚙️ 使用指南
表格:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
为获得最佳性能,请确保您可用的总内存(VRAM + 系统 RAM)超过您正在下载的量化模型文件的大小。如果不足,llama.cpp 仍可通过 SSD/HDD 交换运行,但推理会较慢。
在 27B 和 35B-A3B之间,如果您想要稍微更准确的结果但无法适配您的设备,请使用 27B。若想要更快的推理,请选择 35B-A3B。
推荐设置
最大上下文窗口:
262,144(可通过 YaRN 扩展到 1M)presence_penalty = 0.0 到 2.0默认情况下此项为关闭,但要减少重复您可以使用它,不过使用更高的值可能会导致 性能略有下降适当的输出长度:
32,768用于大多数查询的令牌数
如果你得到的是乱码,可能是你的上下文长度设置得太低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。
由于 Qwen3.5 是混合推理,思考模式和非思考模式的设置不同:
思考模式:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
通用任务的思考模式:
精确编码任务的思考模式:
指令(非思考)模式设置:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
要 禁用思考 / 推理,请使用 --chat-template-kwargs '{"enable_thinking":false}'
如果您在使用 Windows Powershell,请使用: --chat-template-kwargs "{\"enable_thinking\":false}"
请将 'true' 和 'false' 互换使用。
对于 Qwen3.5 0.8B、2B、4B 和 9B,默认情况下推理被禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
通用任务的指令(非思考):
推理任务的指令(非思考):
Qwen3.5 推理教程:
因为 Qwen3.5 有许多不同的规模,我们将在所有推理工作负载中使用 Dynamic 4-bit MXFP4_MOE 的 GGUF 变体。点击下面以导航到指定模型说明:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF 上传:
presence_penalty = 0.0 到 2.0 默认情况下此项为关闭,但要减少重复您可以使用它,不过使用更高的值可能会导致 性能略有下降。
目前没有任何 Qwen3.5 GGUF 能在 Ollama 中工作,因为存在单独的 mmproj 视觉文件。请使用兼容 llama.cpp 的后端。
🦙 Llama.cpp 指南
Qwen3.5-35B-A3B
本指南我们将使用 Dynamic 4-bit,这在 24GB RAM / Mac 设备上可实现快速推理。因为模型在完整 F16 精度下大约 72GB,我们不必过于担心性能。GGUF: Qwen3.5-35B-A3B-GGUF
在这些教程中,我们将使用 llama.cpp 进行快速本地推理,尤其是当你有 CPU 时。
获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。
如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,执行下面的特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5 Small(0.8B • 2B • 4B • 9B)
对于 Qwen3.5 0.8B、2B、4B 和 9B, 推理默认被禁用 。。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 上使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 Small 系列,因为它们非常小,你只需在脚本中将模型名称更改为所需变体。在本指南中我们将使用 9B 参数变体。若要以接近全精度运行它们,你只需要 12GB 的 RAM / VRAM / 统一内存设备。GGUFs:
获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 直接加载模型,你可以如下操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,执行下面的特定命令之一:
若要使用除 9B 之外的其他变体,你可以将 '9B' 更改为:0.8B、2B 或 4B 等。
思考模式(默认禁用)
Qwen3.5 Small 模型默认禁用思考。使用 llama-server 来启用它。
通用任务:
若要使用除 9B 之外的其他变体,你可以将 '9B' 更改为:0.8B、2B 或 4B 等。
非思考模式默认已开启
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-27B
本指南我们将使用 Dynamic 4-bit,这在 18GB RAM / Mac 设备上可实现快速推理。GGUF: Qwen3.5-27B-GGUF
获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,执行下面的特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-122B-A10B
本指南我们将使用 Dynamic 4-bit,这在 70GB RAM / Mac 设备上可实现快速推理。GGUF: Qwen3.5-122B-A10B-GGUF
获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,执行下面的特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于相同的性能等级。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUFs 你可以运行:
3 位: 可适配 192GB 内存 系统(例如,192GB 的 Mac)
4 位(MXFP4): 可适配 256GB 内存。Unsloth 4 位动态 UD-Q4_K_XL 是 ~214GB 在磁盘上 - 可直接加载到 256GB M3 Ultra
可在 单个 24GB GPU + 256GB 系统内存 上运行, 通过MoE 卸载, 达到
8 位 25+ 令牌/秒 需要
~512GB RAM/VRAM 请参见 397B 量化基准测试
获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以如下操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 以了解 Unsloth GGUFs 的性能。
将其保存到特定位置。请记住该模型只有最大 256K 的上下文长度。 思考 按以下模式操作:
将其保存到特定位置。请记住该模型只有最大 256K 的上下文长度。 非思考 按以下模式操作:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住,请参见: Hugging Face Hub、XET 调试
你可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2 来设置用于 GPU 卸载的层数。若你的 GPU 出现内存不足,请尝试调节该项。如果仅使用 CPU 推理,也可移除该项。
👾 LM Studio 指南
在本指南中,我们将使用 LM Studio,一个用于运行大模型的统一 UI 界面。“💡Thinking”和“Non-thinking”切换默认可能不会出现,因此我们需要一些额外步骤来使其生效。
下载 LM Studio 适用于你的设备。然后打开模型搜索,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化)文件。

思考开关说明: 下载后,打开终端 / PowerShell 并尝试: lms --help。然后如果 LM Studio 正常出现并显示许多命令,运行:
这将获取一个 yaml 文件,使你的 GGUF 显示“💡Thinking”和“Non-thinking”切换。你可以将 4b 更改为你希望的量化版本。

否则,你可以转到 我们的 LM Studio 页面 并下载特定的 yaml 文件。
重启 LM Studio,然后加载你下载的模型(带有你下载的思考切换)。你现在应该能看到思考切换已启用。别忘了设置 正确的参数.

🦙 Llama-server 服务 & OpenAI 的完成库
要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 llama-server 在新的终端(例如通过 tmux)中,通过以下命令部署模型:
然后在新终端中,在执行了 pip install openai之后,执行:
🤔 如何启用或禁用推理与思考
对于下面的命令,你可以互换使用 'true' 和 'false'. 要在 LM Studio 中显示思考开关,请阅读我们的指南 禁用.
要 思考 / 推理,在 llama-server 中使用: 或在 Powershell 中使用:
如果您在使用 Windows 启用 --chat-template-kwargs "{\"enable_thinking\":false}"
要 并在 Windows 或 Powershell 上: 或在 Powershell 中使用:
如果您在使用 Windows 启用 --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 0.8B、2B、4B 和 9B,默认情况下推理被禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
作为 Qwen3.5-9B 启用思考的示例(默认禁用): --chat-template-kwargs "{\"enable_thinking\":true}"
--model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \
model = "unsloth/Qwen3.5-9B-GGUF",

要通过本地编码代理工作负载运行模型,你可以
按照我们的指南 。只需将模型名称更改为你想要的 'Qwen3.5' 变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用我们刚才设置的。 llama-server 按照例如 Claude Code 的说明操作后,你将看到:
然后我们可以比如这样请求

创建一个 Python 国际象棋游戏 Qwen3.5 的工具调用 :



🔨有关如何进行工具调用的更多细节,请参见。 在新终端中(如果使用 tmux,使用 CTRL+B+D),我们创建一些工具,比如相加两个数字、执行 Python 代码、执行 Linux 操作等:
~512GB RAM/VRAM Tool Calling Guide import json, subprocess, random
然后我们使用下面的函数(复制并粘贴并执行),这些函数会自动解析函数调用并针对任何模型调用 OpenAI 端点:
在通过启动 Qwen3.5 后,使用 llama-server 像在 Qwen3.5 或参见 Tool Calling Guide 了解更多细节,我们随后可以进行一些工具调用.
📊 基准测试
Unsloth GGUF 基准
我们更新了 Qwen3.5-35B Unsloth 动态量化 在几乎所有方面达到最新水平 我们进行了超过 150 次 KL 散度基准测试,总计 9TB 的 GGUF。我们上传了所有研究工件。我们还修复了一个 工具调用 聊天 模板 错误 (影响所有量化上传器)
所有 GGUF 现在都更新了,带有 改进的量化 算法。
全部使用我们的 全新 imatrix 数据。在聊天、编码、长上下文和工具调用等用例中可见一些改进。
Qwen3.5-35B-A3B 的 GGUF 已更新以使用新修复(112B、27B 仍在转换中,更新后请重新下载)
99.9% 的 KL 散度显示处于最新水平 在帕累托前沿上对于 UD-Q4_K_XL、IQ3_XXS 等表现优异。
从所有 GGUF 量化中弃用 MXFP4 除了纯 MXFP4_MOE 外:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。


在此阅读我们详尽的 Qwen3.5 分析 + 基准:
Qwen3.5 GGUF 基准Qwen3.5-397B-A17B 基准

Benjamin Marie(第三方)进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF 在一台 750 个提示的混合套件上 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了 整体准确率 和 相对错误增加 (量化模型相比原始模型犯错的相对增加程度)。
关键结果(准确率;相对于原始的变化;相对错误增加):
原始权重: 81.3%
UD-Q4_K_XL: 80.5% (−0.8 点;相对错误增加 +4.3%)
UD-Q3_K_XL: 80.7% (−0.6 点;相对错误增加 +3.5%)
UD-Q4_K_XL 和 UD-Q3_K_XL 与原始模型非常接近, 在此套件上的准确率下降远低于 1 点 在本套件上,Ben 暗示您可以 显著减少内存占用 (大约少 500 GB)在测试任务上几乎没有实际损失。
如何选择: Q3 在此处得分略高于 Q4 完全可能只是此规模的正常运行间差异,因此应将 在此基准中将 Q3 和 Q4 视为质量相近 :
选择 Q3 如果您想要 最小的占用 / 最佳内存节省
选择 Q4 如果您想要一个 稍微更保守的 选项,具有 相似的 结果
所有列出的量化均采用我们的动态方法论。即使 UD-IQ2_M 也使用相同的动态方法论,然而转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 UD-IQ2_M 更快,尽管它更大,这就是为什么 UD-IQ2_M 可能比 UD-Q2-K-XL.
官方 Qwen 基准
Qwen3.5-35B-A3B、27B 和 122B-A10B 基准

Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准

最后更新于
这有帮助吗?

