💜Qwen3.5 - 如何本地运行指南
在本地设备上运行新的 Qwen3.5 LLM,包括中等规模:Qwen3.5-35B-A3B、27B、122B-A10B, 小型:Qwen3.5-0.8B、2B、4B、9B 以及 397B-A17B!
Qwen3.5 是阿里巴巴的新模型家族,包括 Qwen3.5-35B-A3B, 27B, 122B-A10B 和 397B-A17B 以及新的 Small 系列:Qwen3.5-0.8B、2B、4B 和 9B。该多模态混合推理大模型在其规模内表现最强。它们支持 256K 上下文 覆盖 201 种语言,具有 思考 + 非-思考,并在具代理能力的编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 模型可在 22GB Mac / 内存 设备上运行。查看全部 GGUFs 在此.
3 月 5 日更新: 重新下载 Qwen3.5-35B, 27B, 122B 和 397B.
所有 GGUF 现在已使用 改进的量化 算法 进行了更新。
全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用用例中可见一些改进。
工具调用已改进 在我们修复聊天模板之后。 修复是通用的 并适用于 任何 Qwen3.5 格式和 任何 上传器。
查看新的 GGUF 基准 以获取 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们将从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。
所有上传均使用 Unsloth Dynamic 2.0 以实现最先进的量化性能——因此 4-bit 会将重要层提升为 8 或 16 位。感谢 Qwen 在第 0 天就为 Unsloth 提供访问权限。你也可以 微调 Qwen3.5 使用 Unsloth。
要启用或禁用思考,请参见 Qwen3.5。Qwen3.5 Small 模型默认禁用。另请参见 LM Studio 指南 以启用思考切换。
35B-A3B27B122B-A10B397B-A17B微调 Qwen3.50.8B • 2B • 4B • 9B
⚙️ 使用指南
表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
为获得最佳性能,请确保您的可用总内存(VRAM + 系统 RAM)超过您正在下载的量化模型文件的大小。如果不够,llama.cpp 仍可通过 SSD/HDD 卸载运行,但推理会更慢。
在 27B 和 35B-A3B之间,如果您想要稍微更准确的结果但无法容纳在设备中,请使用 27B。若想要更快的推理速度,请选择 35B-A3B。
推荐设置
最大上下文窗口:
262,144(可通过 YaRN 扩展到 1M)presence_penalty = 0.0 到 2.0默认情况下这是关闭的,但为减少重复,您可以使用此项,然而使用更高的值可能会导致 性能略微下降适当的输出长度:
32,768用于大多数查询的令牌数量
如果您得到乱码,可能是上下文长度设置过低。或者尝试使用 --cache-type-k bf16 --cache-type-v bf16 这可能会有所帮助。
由于 Qwen3.5 是混合推理,思考模式和非思考模式有不同设置:
思考模式:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
思考模式(用于通用任务):
思考模式(用于精确编码任务):
指令(非思考)模式设置:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
重复惩罚 = 禁用或 1.0
重复惩罚 = 禁用或 1.0
要 禁用思考 / 推理,使用 --chat-template-kwargs '{"enable_thinking":false}'
如果您在 Windows Powershell 上,使用: --chat-template-kwargs "{\"enable_thinking\":false}"
可以互换使用 'true' 和 'false'。
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认被禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
指令(非思考)用于通用任务:
指令(非思考)用于推理任务:
Qwen3.5 推理教程:
因为 Qwen3.5 有许多不同规模,我们将在所有推理工作负载中使用 Dynamic 4-bit MXFP4_MOE GGUF 变体。点击下方以导航到指定的模型说明:
Qwen3.5-35B-A3B27B122B-A10B397B-A17BSmall(0.8B • 2B • 4B • 9B)LM Studio
Unsloth Dynamic GGUF 上传:
presence_penalty = 0.0 到 2.0 默认情况下这是关闭的,但为减少重复,您可以使用此项,然而使用更高的值可能会导致 性能略有下降。
目前没有 Qwen3.5 GGUF 在 Ollama 中工作,因其视觉文件使用独立 mmproj 文件。请使用与 llama.cpp 兼容的后端。
🦙 Llama.cpp 指南
Qwen3.5-35B-A3B
在本指南中,我们将使用 Dynamic 4-bit,这在 24GB RAM / Mac 设备上用于快速推理非常好。因为模型在完整 F16 精度下大约只有 72GB,所以我们不必过多担心性能。GGUF: Qwen3.5-35B-A3B-GGUF
对于这些教程,我们将使用 llama.cpp 以便快速本地推理,尤其是当你有 CPU 时。
获取最新的 llama.cpp 在 GitHub 此处。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。
如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据您的使用场景,执行以下特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 Q4_K_M 或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5 Small(0.8B • 2B • 4B • 9B)
对于 Qwen3.5 0.8B、2B、4B 和 9B, 推理被禁用 默认情况下。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 上使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 Small 系列,因为它们体积很小,你只需在脚本中将模型名称更改为所需的变体。本指南将使用 9B 参数变体。要以接近全精度运行它们,你只需一台具有 12GB RAM / VRAM / 统一内存的设备。GGUFs:
获取最新的 llama.cpp 在 GitHub 此处。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果您想直接使用 llama.cpp 直接加载模型时,可以按下面操作:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据您的使用场景,执行以下特定命令之一:
要使用除 9B 以外的其他变体,你可以将 '9B' 改为:0.8B、2B 或 4B 等。
思考模式(默认禁用)
Qwen3.5 Small 模型默认禁用思考。使用 llama-server 可启用它。
通用任务:
要使用除 9B 以外的其他变体,你可以将 '9B' 改为:0.8B、2B 或 4B 等。
非思考模式默认已开启
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer 之后)。你可以选择 Q4_K_M 或其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-27B
在本指南中,我们将使用 Dynamic 4-bit,在 18GB RAM / Mac 设备上用于快速推理表现良好。GGUF: Qwen3.5-27B-GGUF
获取最新的 llama.cpp 在 GitHub 此处。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据您的使用场景,执行以下特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 MXFP4_MOE 或类似的其他量化版本,诸如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-122B-A10B
在本指南中,我们将使用 Dynamic 4-bit,在 70GB RAM / Mac 设备上用于快速推理表现良好。GGUF: Qwen3.5-122B-A10B-GGUF
获取最新的 llama.cpp 在 GitHub 此处。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
根据您的使用场景,执行以下特定命令之一:
思考模式:
精确编码任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 MXFP4_MOE (动态 4bit)或类似的其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试
然后以对话模式运行模型:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于同一性能等级。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUFs 你可以运行:
3 位:适用于 192GB 内存 系统(例如,192GB 的 Mac)
4-bit(MXFP4):适用于 256GB 内存。Unsloth 4-bit 动态 UD-Q4_K_XL 是 在磁盘上约 ~214GB ——可直接加载到 256GB M3 Ultra
可在 单张 24GB GPU + 256GB 系统内存 上运行 通过MoE 卸载 ,达到
8 位 25+ 令牌/秒 需要
~512GB RAM/VRAM 查看 397B 量化基准
获取最新的 llama.cpp 在 GitHub 此处。你也可以按下面的构建说明进行。若没有 GPU 或仅想要 CPU 推理,请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。
如果您想直接使用 llama.cpp 加载模型,可以按下面操作:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 强制 llama.cpp 以了解 Unsloth GGUF 的性能表现。
以将其保存到特定位置。请记住模型的最大上下文长度仅为 256K。 思考 按以下方式进行
以将其保存到特定位置。请记住模型的最大上下文长度仅为 256K。 -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \ 按以下方式进行
通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 MXFP4_MOE (动态 4bit)或类似的其他量化版本例如 UD-Q4_K_XL 。我们建议至少使用 2-bit 动态量化来 UD-Q2_K_XL 在大小和准确性之间取得平衡。如果下载卡住,请参见: Hugging Face Hub、XET 调试
--include "*UD-Q4_K_XL" # 对于 Dynamic 2bit 使用 "*UD-Q2_K_XL*" 您可以编辑 --threads 32 来设置 CPU 线程数, --ctx-size 16384 来设置上下文长度, --n-gpu-layers 2
--mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \
👾 LM Studio 指南 LM Studio在本指南中,我们将使用
,一个用于运行 LLM 的统一 UI 界面。“💡思考”与“非思考”切换可能默认不显示,因此我们需要一些额外步骤来让它工作。 LM Studio 为您的设备下载

。然后打开模型搜索,搜索 'unsloth/qwen3.5',并下载您想要的 GGUF(量化)版本。 思考切换说明: 下载后,打开终端 / PowerShell 并尝试:lms --help
lms get unsloth/qwen3.5-4b 这将获取一个 yaml 文件,从而使您的 GGUF 显示“💡思考”与“非思考”切换。您可以将 4b

更改为您想要的量化版本。 否则,您可以前往 我们的 LM Studio 页面
并下载特定的 yaml 文件。 重启 LM Studio,然后加载您下载的模型(包含您下载的思考切换)。现在您应该能看到思考切换已启用。别忘了设置.

正确的参数
🦙 Llama-server 服务 & OpenAI 的 completion 库 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 llama-server
--port 8001 然后在另一个终端,在执行pip install openai
🤔 print(completion.choices[0].message.content)
如何启用或禁用推理与思考对于以下命令,您可以使用 'true' 和 'false ' 互换使用。要在 LM Studio 中添加思考切换,请阅读我们的指南.
要 禁用 思考 / 推理,在 llama-server 内使用:
如果您在 Windows 或在 Powershell 中使用: --chat-template-kwargs "{\"enable_thinking\":false}"
要 启用 思考 / 推理,在 llama-server 内使用:
如果您在 Windows 或在 Powershell 中使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认被禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 或 Powershell 上: --chat-template-kwargs "{\"enable_thinking\":true}"
以 Qwen3.5-9B 为例启用思考(默认禁用):
然后在 Python 中:

👨💻 OpenAI Codex & Claude Code
要通过本地编码代理工作负载运行模型,您可以 参照我们的指南。只需将模型名称更改为所需的 Qwen3.5 变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用我们刚刚设置的 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 设置。
例如,在遵循 Claude Code 的说明后,您将看到:

然后我们可以例如请求 创建一个用于国际象棋的 Python 游戏 :



🔨Qwen3.5 的工具调用
~512GB RAM/VRAM Tool Calling Guide 欲了解如何进行工具调用的更多细节。在新终端中(如果使用 tmux,使用 CTRL+B+D),我们创建一些工具,例如加两个数、执行 Python 代码、执行 Linux 功能等:
然后我们使用下面的函数(复制并粘贴并执行),它们将自动解析函数调用并在任何模型上调用 OpenAI 端点:
在通过启动 Qwen3.5 后, 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用 例如在 Qwen3.5 或参见 Tool Calling Guide 以获取更多细节,我们随后可以进行一些工具调用。
📊 基准测试
Unsloth GGUF 基准
我们更新了 Qwen3.5-35B Unsloth 动态量化 在几乎所有方面都处于最先进水平 我们进行了超过 150 次 KL 散度基准测试,总共 9TB 的 GGUF 文件。我们上传了所有研究产物。我们还修复了一个 工具调用 聊天 模板 错误 (影响所有量化上传器)
所有 GGUF 现在已使用 改进的量化 算法 进行了更新。
全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用用例中可见一些改进。
Qwen3.5-35B-A3B GGUF 已更新以使用新修复(112B、27B 仍在转换,更新后请重新下载)
99.9% 的 KL 散度显示最先进水平 在帕累托前沿针对 UD-Q4_K_XL、IQ3_XXS 等。
退休 MXFP4 从所有 GGUF 量化中:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除纯 MXFP4_MOE 外。


在此阅读我们详细的 QWEN3.5 分析 + 基准:
Qwen3.5 GGUF 基准测试Qwen3.5-397B-A17B 基准

Benjamin Marie(第三方)进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF 在一台 750 提示混合套件上 (LiveCodeBench v6、MMLU Pro、GPQA、Math500),报告了以下两项 总体准确率 和 相对错误增加 (量化模型比原始模型犯错的频率增加了多少)。
关键结果(准确率;与原始的变化;相对错误增加):
原始权重: 81.3%
UD-Q4_K_XL: 80.5% (−0.8 点;相对错误增加 +4.3%)
UD-Q3_K_XL: 80.7% (−0.6 点;相对错误增加 +3.5%)
UD-Q4_K_XL 和 UD-Q3_K_XL 与原始模型非常接近, 在该套件上准确率下降远低于 1 个点 本恩暗示你可以 大幅减少内存占用 (约减少 500 GB)在测试任务上几乎没有或没有实际损失。
如何选择: 在此规模上 Q3 比 Q4 略高完全有可能是正常的运行间方差,所以请将 Q3 和 Q4 视为在该基准中质量基本相当 :
选择 Q3 如果你想要 最小的占用 / 最佳内存节省
选择 Q4 如果你想要一个 稍微更保守的 选项,具有 相似的 结果
所有列出的量化都采用我们的动态方法论。即使 UD-IQ2_M 也使用相同的动态方法论,尽管转换过程与 UD-Q2-K-XL 不同 UD-IQ2_M 其中 K-XL 通常比 UD-IQ2_M 更快,即使它更大,所以这就是为什么 UD-Q2-K-XL.
可能比
表现更好

官方 Qwen 基准测试: Qwen3.5-35B-A3B、27B 和 122B-A10B 基准,Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准

最后更新于
这有帮助吗?

