💜Qwen3.5 - 如何在本地运行
在你的本地设备上运行全新的 Qwen3.5 LLM,包括中型:Qwen3.5-35B-A3B、27B、122B-A10B,以及小型:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!
Qwen3.5 是阿里巴巴全新的模型家族,包括 Qwen3.5-35B-A3B、 27B, 122B-A10B 和 397B-A17B,以及新的 小型 系列:Qwen3.5-0.8B、2B、4B 和 9B。这些多模态混合推理 LLM 在各自规模上表现最强。它们支持 256K 上下文 ,覆盖 201 种语言,具备 思考 + 非思考,并且在智能体编程、视觉、聊天和长上下文任务中表现出色。35B 和 27B 模型可在 22GB 的 Mac / 内存设备上运行。查看所有 此处的 GGUF.
3 月 17 日更新: 你现在可以在 Unsloth Studio.
3 月 5 日更新: 重新下载 Qwen3.5-35B, 27B, 122B 和 397B.
所有 GGUF 现在都已使用 改进的量化 算法更新。
全部使用我们的 新的 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。
工具调用已改进 ,这得益于我们对聊天模板的修复。 此修复具有通用性 并适用于 任何 Qwen3.5 格式和 任何 上传器。
查看新的 GGUF 基准 以及 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们正在从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层:Q2_K_XL、Q3_K_XL 和 Q4_K_XL。
所有上传都使用 Unsloth Dynamic 2.0 ,以实现 SOTA 量化性能——因此 4 位中一些重要层会提升到 8 位或 16 位。感谢 Qwen 为 Unsloth 提供 day zero 访问。你也可以 微调 Qwen3.5 ,使用 Unsloth。
要启用或禁用思考,请参见 Qwen3.5.Qwen3.5 小型模型默认禁用。
⚙️ 使用指南
表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)
为获得最佳性能,请确保你可用的总内存(VRAM + 系统 RAM)大于你下载的量化模型文件大小。如果不够,llama.cpp 仍可通过 SSD/HDD 卸载运行,但推理会更慢。
在 27B 和 35B-A3B之间,如果你想要稍微更准确的结果且无法装入你的设备,请使用 27B。如果你想要更快得多的推理,请选择 35B-A3B。
推荐设置
最大上下文窗口:
262,144(可通过 YaRN 扩展到 1M)presence_penalty = 0.0 到 2.0默认情况下此项关闭,但为了减少重复,你可以使用它,不过较高的值可能导致 性能略有下降足够的输出长度:
32,768个 token 适用于大多数查询
如果你得到的是乱码,你的上下文长度可能设置得太低。或者试试使用 --cache-type-k bf16 --cache-type-v bf16 这可能有帮助。
由于 Qwen3.5 是混合推理模型,思考和非思考模式具有不同设置:
思考模式:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repeat_penalty = 禁用 或 1.0
repeat_penalty = 禁用 或 1.0
通用任务的思考模式:
精确编程任务的思考模式:
指令(非思考)模式设置:
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repeat_penalty = 禁用 或 1.0
repeat_penalty = 禁用 或 1.0
要 禁用思考 / 推理,请使用 --chat-template-kwargs '{"enable_thinking":false}'
如果你在 Windows Powershell 中,请使用: --chat-template-kwargs "{\"enable_thinking\":false}"
可以互换使用 'true' 和 'false'。
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
通用任务的指令(非思考)模式:
推理任务的指令(非思考)模式:
Qwen3.5 推理教程:
由于 Qwen3.5 有许多不同尺寸,我们将为所有推理工作负载使用 Dynamic 4-bit MXFP4_MOE GGUF 变体。点击下方可跳转到指定的模型说明:
在 Unsloth Studio 中运行Qwen3.5-35B-A3B27B122B-A10B397B-A17B小型(0.8B - 9B)
Unsloth Dynamic GGUF 上传:
presence_penalty = 0.0 到 2.0 默认情况下此项关闭,但为了减少重复,你可以使用它,不过较高的值可能导致 性能略有下降。
目前由于独立的 mmproj 视觉文件,没有任何 Qwen3.5 GGUF 能在 Ollama 中工作。请使用与 llama.cpp 兼容的后端。
🦥 Unsloth Studio 指南
Qwen3.5 可以在 Unsloth Studio中运行和微调,我们新的本地 AI 开源 Web UI。Unsloth Studio 让你可以在本地运行模型,支持 MacOS、Windows、Linux 和:

运行 Qwen3.5
在使用 Unsloth Studio 时,推理参数应自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。
更多信息可查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南
Qwen3.5-35B-A3B
在本指南中,我们将使用 Dynamic 4-bit,它在 24GB RAM / Mac 设备上表现很好,可实现快速推理。由于该模型在完整 F16 精度下只有大约 72GB,我们无需太担心性能。GGUF: Qwen3.5-35B-A3B-GGUF
在这些教程中,我们将使用 llama.cpp 进行快速本地推理,尤其是如果你有 CPU。
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。
如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按照下面其中一个特定命令操作:
思考模式:
精确编程任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer 之后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5 小型(0.8B • 2B • 4B • 9B)
对于 Qwen3.5 0.8B、2B、4B 和 9B, 推理已禁用 默认情况下。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 上使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 小型系列,由于它们非常小,你只需将脚本中的模型名称改为你想要的变体即可。对于这个特定指南,我们将使用 9B 参数变体。要以接近完整精度运行它们,你只需要一个 12GB RAM / VRAM / 统一内存设备。GGUF:
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按照下面其中一个特定命令操作:
若要使用除 9B 之外的其他变体,你可以将 '9B' 改为:0.8B、2B 或 4B 等。
思考模式(默认禁用)
Qwen3.5 小型模型默认禁用思考。使用 llama-server 来启用它。
通用任务:
若要使用除 9B 之外的其他变体,你可以将 '9B' 改为:0.8B、2B 或 4B 等。
非思考模式默认已经开启
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer 之后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5-27B
在本指南中,我们将使用 Dynamic 4-bit,它在 18GB RAM / Mac 设备上表现很好,可实现快速推理。GGUF: Qwen3.5-27B-GGUF
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按照下面其中一个特定命令操作:
思考模式:
精确编程任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5-122B-A10B
在本指南中,我们将使用 Dynamic 4-bit,它在 70GB RAM / Mac 设备上表现很好,可实现快速推理。GGUF: Qwen3.5-122B-A10B-GGUF
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。
请根据你的使用场景,按照下面其中一个特定命令操作:
思考模式:
精确编程任务(例如 WebDev):
通用任务:
非思考模式:
通用任务:
推理任务:
通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试
然后在对话模式下运行模型:
Qwen3.5-397B-A17B
Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 处于同一性能档位。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUF 你可以运行:
3 位:可放入 192GB RAM 系统(例如一台 192GB 的 Mac)
4-bit(MXFP4):可放入 256GB RAM。Unsloth 4-bit 动态 UD-Q4_K_XL 是 磁盘上约 ~214GB - 可直接加载在 256GB M3 Ultra
可在 单个 24GB GPU + 256GB 系统 RAM 上运行 通过MoE 卸载 ,达到
8 位 需要 ~512GB RAM/VRAM
查看 397B 量化基准 了解 Unsloth GGUF 的表现。
获取最新的 llama.cpp 在 GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。
如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。记住该模型的最大上下文长度只有 256K。
请参考这个用于 思考 模式:
请参考这个用于 非思考 模式:
通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试
你可以编辑 --threads 32 用于 CPU 线程数, --n-gpu-layers 2 用于 GPU 卸载的层数。如果你的 GPU 显存不足,可以尝试调整它。如果你只有 CPU 推理,也请将其移除。
👾 LM Studio 指南
在本指南中,我们将使用 LM Studio,一个用于运行 LLM 的统一 UI 界面。默认情况下可能不会显示“💡Thinking”和“Non-thinking”切换,因此我们需要一些额外步骤让它工作。
下载 LM Studio 到你的设备。然后打开 Model Search,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化版本)。

思考切换说明: 下载后,打开你的终端 / PowerShell 并尝试: lms --help。如果 LM Studio 正常显示出许多命令,则运行:
这将获取一个 yaml 文件,使你的 GGUF 显示“💡Thinking”和“Non-thinking”切换。你可以更改 4b 为你想要的量化版本。

否则,你可以前往 我们的 LM Studio 页面 并下载特定的 yaml 文件。
重启 LM Studio,然后加载你下载的模型(带有你下载的特定思考切换)。你现在应该能看到思考切换已启用。别忘了设置 正确参数.

🦙 Llama-server 提供服务 & OpenAI 的 completion 库
要将 Qwen3.5-397B-A17B 用于生产部署,我们使用 llama-server 在一个新的终端中,例如通过 tmux,使用以下方式部署模型:
然后在一个新的终端中,在执行 pip install openai之后,执行:
🤔 如何启用或禁用推理与思考
对于下面的命令,你可以互换使用 'true' 和 'false'。
Unsloth Studio 会自动为思考模型提供一个 'Think' 切换。
要在 LM Studio 中拥有 Think 切换, 阅读我们的指南.

要 禁用 思考 / 推理,在 llama-server 中使用:
如果你在 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":false}"
要 启用 思考 / 推理,在 llama-server 中使用:
如果你在 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":true}"
对于 Qwen3.5 0.8B、2B、4B 和 9B,推理默认禁用。要启用它,请使用: --chat-template-kwargs '{"enable_thinking":true}'
在 Windows 或 Powershell 上: --chat-template-kwargs "{\"enable_thinking\":true}"
例如,对于 Qwen3.5-9B,要启用思考(默认是禁用的):
然后在 Python 中:

👨💻 OpenAI Codex & Claude Code
要通过本地编码智能体工作负载运行模型,你可以 按照我们的指南。只需将模型名称改为你想要的“Qwen3.5”变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用该 llama-server 我们刚才才刚刚设置好。
例如,在按照 Claude Code 的说明操作后,你会看到:

然后我们可以比如这样问 创建一个国际象棋的 Python 游戏 :



🔨使用 Qwen3.5 进行工具调用
查看 Tool Calling Guide 关于如何进行工具调用的更多细节。在一个新的终端中(如果使用 tmux,请按 CTRL+B+D),我们创建一些工具,例如添加 2 个数字、执行 Python 代码、执行 Linux 函数等等:
然后我们使用下面这些函数(复制并粘贴后执行),它们会自动解析函数调用,并为任何模型调用 OpenAI 端点:
在通过以下方式启动 Qwen3.5 之后 llama-server 就像在 Qwen3.5 或者查看 Tool Calling Guide 了解更多细节后,我们就可以进行一些工具调用。
📊 基准测试
Unsloth GGUF 基准测试
我们更新了 Qwen3.5-35B Unsloth 动态量化 为当前最先进(SOTA) 在几乎所有位宽上都是如此。我们进行了 150 多次 KL 散度基准测试,总计 9TB 的 GGUF 文件。我们上传了所有研究成果。我们还修复了一个 工具调用 聊天模板 错误 (影响所有量化上传器)
所有 GGUF 现在都已使用 改进的量化 算法更新。
全部使用我们的 新的 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。
Qwen3.5-35B-A3B GGUF 已更新为使用新的修复(112B、27B 仍在转换中,更新后请重新下载)
99.9% 的 KL 散度表明其在 UD-Q4_K_XL、IQ3_XXS 等的帕累托前沿上处于 SOTA。
弃用 MXFP4 从所有 GGUF 量化中移除:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,纯 MXFP4_MOE 除外。


在这里阅读我们详细的 QWEN3.5 分析 + 基准测试:
Qwen3.5 GGUF 基准测试Qwen3.5-397B-A17B 基准测试

Benjamin Marie(第三方)进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF,在一个 750 条提示的混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500)上进行,报告了 总体准确率 和 相对错误增加 (量化模型相较于原始模型更频繁出错的程度)。
关键结果(准确率;相对原始模型的变化;相对错误增加):
原始权重: 81.3%
UD-Q4_K_XL: 80.5% (-0.8 个百分点;+4.3% 相对错误增加)
UD-Q3_K_XL: 80.7% (-0.6 个百分点;+3.5% 相对错误增加)
UD-Q4_K_XL 和 UD-Q3_K_XL 与原始模型极其接近, 准确率下降远低于 1 个百分点 在这个套件上,Ben 暗示你可以 显著降低内存占用 (约少 500 GB),而在测试任务上几乎没有实际损失。
如何选择: 这里 Q3 的得分略高于 Q4,在如此规模下完全可能只是正常的运行间波动,所以请把 Q3 和 Q4 视为质量实际上相近 在这个基准测试中:
选择 Q3 如果你想要 最小占用 / 最佳内存节省
选择 Q4 如果你想要一个 稍微更保守的 选项, 结果相近 所有列出的量化都使用了我们的动态方法。即使
UD-IQ2_M 也采用了相同的动态方法,但转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 更快,尽管它更大,所以这就是为什么 也采用了相同的动态方法,但转换过程不同于 可能表现更好,尽管它更大,因此 也采用了相同的动态方法,但转换过程不同于 可能表现优于 其中 K-XL 通常比.
官方 Qwen 基准测试
Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试

最后更新于
这有帮助吗?



