💜Qwen3.5 - 如何本地运行指南
在本地设备上运行新的 Qwen3.5 LLMs,包括中等:Qwen3.5-35B-A3B、27B、122B-A10B,Small:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!
Qwen3.5 是阿里巴巴的新模型系列,包括 Qwen3.5-35B-A3B, 27B, 122B-A10B 和 397B-A17B 以及新的 小型 系列:Qwen3.5-0.8B、2B、4B 和 9B。多模态混合推理大模型在各自规模上表现最强。它们支持 256K 上下文 覆盖 201 种语言,具有 思考 + 非思考,并且在具有代理能力的编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 模型可在 22GB Mac / RAM 设备上运行。查看所有 GGUFs 在此.
3 月 5 日 更新: 重新下载 Qwen3.5-35B, 27B, 122B 和 397B.
所有 GGUF 现已使用 改进的量化 算法进行更新。
全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用用例中可见一些改进。
工具调用已改进 通过我们的聊天模板修复之后。 修复为通用 并适用于 任何 Qwen3.5 格式和 任何 上传器。
查看新的 GGUF 基准测试 以获取 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们将从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。
所有上传都使用 Unsloth Dynamic 2.0 以实现 SOTA 量化性能 - 因此 4 位量化会将重要层提升为 8 或 16 位。感谢 Qwen 在零日向 Unsloth 提供访问权限。你也可以 微调 Qwen3.5 使用 Unsloth。
要启用或禁用思考,请参见 Qwen3.5。Qwen3.5 小型模型默认禁用。另见 LM Studio 指南 以启用 思考 切换。
35B-A3B27B122B-A10B397B-A17B微调 Qwen3.50.8B • 2B • 4B • 9B
⚙️ 使用指南
表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
为获得最佳性能,请确保您的可用总内存(VRAM + 系统 RAM)超过您正在下载的量化模型文件的大小。如果不够,llama.cpp 仍可通过 SSD/HDD 异步卸载运行,但推理会更慢。
在 27B 和 35B-A3B之间,如果您想要稍微更准确的结果且无法适配设备,请使用 27B。若想要更快的推理,请选择 35B-A3B。
推荐设置
最大上下文窗口:
262,144(可通过 YaRN 扩展到 1M)presence_penalty = 0.0 到 2.0默认此项为关闭,但为减少重复你可以使用此设置,然而使用更高的值可能导致 性能略有下降适当的输出长度:
32,768适用于大多数查询的令牌数
如果你得到的是乱码,可能是你的上下文长度设置过低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。
由于 Qwen3.5 是混合推理,思考模式和非思考模式有不同设置:
思考模式:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
通用任务的思考模式:
精确编码任务的思考模式:
指令(非思考)模式设置:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
要 禁用思考 / 推理,使用 --chat-template-kwargs '{"enable_thinking":false}'
如果你在 Windows Powershell 上,使用: --chat-template-kwargs "{\"enable_thinking\":false}"
请在 'true' 和 'false' 之间互换使用。
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认被禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
通用任务的指令(非思考)模式:
用于推理任务的指令(非思考)模式:
Qwen3.5 推理教程:
因为 Qwen3.5 有许多不同规模,我们将为所有推理工作负载使用 Dynamic 4-bit MXFP4_MOE GGUF 变体。点击下方以跳转到指定模型说明:
Qwen3.5-35B-A3B27B122B-A10B397B-A17B小型(0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF 上传:
presence_penalty = 0.0 到 2.0 默认此项为关闭,但为减少重复你可以使用此设置,然而使用更高的值可能导致 性能略有下降。
目前没有 Qwen3.5 GGUF 能在 Ollama 中工作,因其视觉文件使用独立的 mmproj 文件。请使用与 llama.cpp 兼容的后端。
Qwen3.5-35B-A3B
在本指南中我们将使用 Dynamic 4-bit,在 24GB RAM / Mac 设备上可实现快速推理效果。因为模型在完整 F16 精度下仅约 72GB,所以我们不必太担心性能问题。GGUF: Qwen3.5-35B-A3B-GGUF
🦙 Llama.cpp 指南
对于这些教程,我们将使用 llama.cpp 用于快速本地推理,特别是如果你有 CPU 的情况下。
获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,遵循下面的特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5 Small(0.8B • 2B • 4B • 9B)
对于 Qwen3.5 0.8B、2B、4B 和 9B, 推理默认被禁用 默认情况下。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 上使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 Small 系列,因为它们很小,你只需在脚本中将模型名称更改为所需变体。对于本指南我们将使用 9B 参数变体。要以接近全精度运行它们,你只需要 12GB 的内存 / 显存 / 统一内存设备。GGUF 文件:
获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 直接加载模型,你可以如下操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这与...类似 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,遵循下面的特定命令之一:
要使用除 9B 以外的其他变体,你可以将“9B”更改为:0.8B、2B 或 4B 等。
思考模式(默认禁用)
Qwen3.5 Small 模型默认禁用思考。使用 llama-server 可启用它。
通用任务:
要使用除 9B 以外的其他变体,你可以将“9B”更改为:0.8B、2B 或 4B 等。
非思考模式默认已启用
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )之后。你可以选择 Q4_K_M 或其他量化版本,如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-27B
在本指南中我们将使用动态 4 位,它在 18GB 内存 / Mac 设备上用于快速推理效果很好。GGUF: Qwen3.5-27B-GGUF
获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,遵循下面的特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-122B-A10B
在本指南中我们将使用动态 4 位,它在 70GB 内存 / Mac 设备上用于快速推理效果很好。GGUF: Qwen3.5-122B-A10B-GGUF
获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据你的用例,遵循下面的特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4 位)或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于相同的性能档次。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUF 文件 你可以运行:
3 位: 适用于 192GB 内存 系统(例如,一台 192GB 的 Mac)
4 位(MXFP4): 适用于 256GB 内存。Unsloth 4 位动态 UD-Q4_K_XL 是 在磁盘上约为 ~214GB - 直接加载在一个 256GB M3 Ultra
运行于 单个 24GB GPU + 256GB 系统内存 通过 MoE 卸载,达到 25+ 令牌/秒
8 位 需要 ~512GB 内存/显存
参见 397B 量化基准 了解 Unsloth GGUF 的性能。
获取最新的 llama.cpp 在 GitHub 在此。你也可以按照下面的构建说明操作。若你没有 GPU 或只想要 CPU 推理,将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果你想直接使用 llama.cpp 来加载模型,你可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face(第 3 点)下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 以保存到特定位置。请记住该模型的最大上下文长度仅为 256K。
请按此操作以获得 思考 模式:
请按此操作以获得 非思考 模式:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4 位)或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参阅: Hugging Face Hub、XET 调试
你可以编辑 --threads 32 以设置 CPU 线程数量, --ctx-size 16384 以设置上下文长度, --n-gpu-layers 2 以设置用于 GPU 卸载的层数。如果你的 GPU 出现内存不足,请尝试调整它。如果你仅使用 CPU 推理,也请移除该参数。
👾 LM Studio 指南
在本指南中,我们将使用 LM Studio,一个用于运行大型语言模型的统一界面。'💡Thinking' 和 'Non-thinking' 切换可能默认未显示,因此我们需要一些额外步骤来使其工作。
下载 LM Studio 适用于你的设备。然后打开模型搜索,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化)文件。

思考切换说明: 下载后,打开你的终端 / PowerShell 并尝试: lms --help。然后如果 LM Studio 正常出现并显示许多命令,运行:
这将获取一个 yaml 文件,使你的 GGUF 出现 '💡Thinking' 和 'Non-thinking' 切换。你可以将 4b 更改为你想要的量化类型。

或者,你可以去 我们的 LM Studio 页面 并下载特定的 yaml 文件。
重启 LM Studio,然后加载你下载的模型(带有你下载的特定思考切换)。现在你应该能看到思考切换已启用。别忘了设置 正确的参数.

🦙 Llama-server 服务 & OpenAI 的 completion 库
为了将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 llama-server 在新终端(例如通过 tmux)中,通过以下方式部署模型:
然后在新的终端中,完成以下操作后 pip install openai,执行:
🤔 如何启用或禁用推理与思考
对于下面的命令,你可以互换使用 'true' 和 'false '。要使 LM Studio 的思考切换,阅读我们的指南.
要 禁用 思考 / 推理,请在 llama-server 中使用:
如果你在 Windows 或在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":false}"
要 启用 思考 / 推理,请在 llama-server 中使用:
如果你在 Windows 或在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认被禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 或 Powershell 上: --chat-template-kwargs "{\"enable_thinking\":true}"
以 Qwen3.5-9B 为例要启用思考(默认禁用):
然后在 Python 中:

👨💻 OpenAI Codex 与 Claude Code
要通过本地的编程代理工作负载运行模型,你可以 遵循我们的指南。只需将模型名 'GLM-4.7-Flash' 更改为你想要的 'Qwen3.5' 变体,并确保按照正确的 Qwen3.5 参数和使用说明进行。使用我们刚刚设置的配置。 llama-server 我们刚才设置的那套。
例如,按照 Claude Code 的说明后你将看到:

然后我们可以例如请求 创建一个象棋的 Python 游戏 :



🔨Qwen3.5 的工具调用
参见 Tool Calling Guide 有关如何进行工具调用的更多详细信息,请参阅。在新终端中(如果使用 tmux,请按 CTRL+B+D),我们创建一些工具,例如相加两个数字、执行 Python 代码、执行 Linux 功能等:
然后我们使用下面的函数(复制并粘贴并执行),它们将自动解析函数调用并为任何模型调用 OpenAI 端点:
通过以下方式启动 Qwen3.5 后, llama-server 就像在 Qwen3.5 或参见 Tool Calling Guide 了解更多细节,然后我们可以进行一些工具调用。
📊 基准测试
Unsloth GGUF 基准
我们更新了 Qwen3.5-35B Unsloth 动态量化, 成为最先进(SOTA), 在几乎所有方面。我们进行了超过 150 次 KL 散度基准测试,累计 9TB 的 GGUF 文件,。我们上传了所有研究成果。我们还修复了一个 工具调用 聊天模板 错误, (影响所有量化上传器)
所有 GGUF 现已使用 改进的量化 算法进行更新。
全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用用例中可见一些改进。
Qwen3.5-35B-A3B 的 GGUF 已更新以使用新的修复(112B、27B 仍在转换,更新后请重新下载)
99.9% 的 KL 散度显示为最先进, 在帕累托前沿针对 UD-Q4_K_XL、IQ3_XXS 等。
弃用 MXFP4 从所有 GGUF 量化中:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除了纯 MXFP4_MOE。


在此阅读我们详细的 QWEN3.5 分析 + 基准:
Qwen3.5 GGUF 基准Qwen3.5-397B-A17B 基准测试

Benjamin Marie(第三方)基准测试了 Qwen3.5-397B-A17B 在一台 使用 Unsloth GGUF 的 机器上, 750 条提示混合套件, (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了 总体准确率, 和 相对错误增加, (量化模型比原始模型更常出错的程度)。
关键结果(准确率;相对于原始的变化;相对错误增加):
原始权重: 81.3%
UD-Q4_K_XL: 80.5% (−0.8 点;相对错误增加 +4.3%)
UD-Q3_K_XL: 80.7% (−0.6 点;相对错误增加 +3.5%)
UD-Q4_K_XL 和 UD-Q3_K_XL 与原始模型非常接近, 在该套件上的准确率下降远低于 1 个点, Ben 暗示你可以, 大幅减少内存占用, (约少 ~500 GB,)在所测试的任务上几乎没有实际损失。
如何选择: 在这个基准中 Q3 比 Q4 稍高是完全可能的,这在此规模上属于正常的运行间方差,因此请将 Q3 和 Q4 视为在效果上质量相似, 在此基准中:
选择 Q3 如果你想要 最小的占用 / 最佳内存节省,
选择 Q4 如果你想要一个 稍微更保守的, 选项,具有 相似的 结果,
所有列出的量化都使用我们的动态方法。即使 UD-IQ2_M 也使用相同的动态方法,然而转换过程与 UD-Q2-K-XL 不同, UD-IQ2_M 其中 K-XL 通常比 更快, UD-IQ2_M 尽管它更大,所以这就是为什么 UD-Q2-K-XL.
可能比 表现更好,
官方 Qwen 基准,

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准,

Qwen3.5-397B-A17B 基准测试

最后更新于
这有帮助吗?

