For the complete documentation index, see llms.txt. This page is also available as Markdown.

💜Qwen3.5 - 如何在本地运行

在你的本地设备上运行全新的 Qwen3.5 LLM,包括中型:Qwen3.5-35B-A3B、27B、122B-A10B,以及小型:Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B!

Qwen3.5 是阿里巴巴全新的模型家族,包括 Qwen3.5-35B-A3B、 27B, 122B-A10B 和 397B-A17B,以及新的 小型 系列:Qwen3.5-0.8B、2B、4B 和 9B。这些多模态混合推理 LLM 在各自规模上表现最强。它们支持 256K 上下文 ,覆盖 201 种语言,具备 思考 + 思考,并且在智能体编程、视觉、聊天和长上下文任务中表现出色。35B 和 27B 模型可在 22GB 的 Mac / 内存设备上运行。查看所有 此处的 GGUF.

运行 Qwen3.5 教程微调 Qwen3.5

所有上传都使用 Unsloth Dynamic 2.0 ,以实现 SOTA 量化性能——因此 4 位中一些重要层会提升到 8 位或 16 位。感谢 Qwen 为 Unsloth 提供 day zero 访问。你也可以 微调 Qwen3.5 ,使用 Unsloth。

要启用或禁用思考,请参见 Qwen3.5.Qwen3.5 小型模型默认禁用。

⚙️ 使用指南

表:推理硬件要求 (单位 = 总内存:RAM + VRAM,或统一内存)

Qwen3.5
3 位
4 位
6 位
8 位
BF16

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

14 GB

17 GB

24 GB

30 GB

54 GB

17 GB

22 GB

30 GB

38 GB

70 GB

60 GB

70 GB

106 GB

132 GB

245 GB

180 GB

214 GB

340 GB

512 GB

810 GB

27B35B-A3B之间,如果你想要稍微更准确的结果且无法装入你的设备,请使用 27B。如果你想要更快得多的推理,请选择 35B-A3B。

推荐设置

  • 最大上下文窗口: 262,144 (可通过 YaRN 扩展到 1M)

  • presence_penalty = 0.0 到 2.0 默认情况下此项关闭,但为了减少重复,你可以使用它,不过较高的值可能导致 性能略有下降

  • 足够的输出长度: 32,768 个 token 适用于大多数查询

如果你得到的是乱码,你的上下文长度可能设置得太低。或者试试使用 --cache-type-k bf16 --cache-type-v bf16 这可能有帮助。

由于 Qwen3.5 是混合推理模型,思考和非思考模式具有不同设置:

思考模式:

通用任务
精确编程任务(例如 WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repeat_penalty = 禁用 或 1.0

repeat_penalty = 禁用 或 1.0

通用任务的思考模式:

精确编程任务的思考模式:

指令(非思考)模式设置:

通用任务
推理任务

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repeat_penalty = 禁用 或 1.0

repeat_penalty = 禁用 或 1.0

通用任务的指令(非思考)模式:

推理任务的指令(非思考)模式:

Qwen3.5 推理教程:

由于 Qwen3.5 有许多不同尺寸,我们将为所有推理工作负载使用 Dynamic 4-bit MXFP4_MOE GGUF 变体。点击下方可跳转到指定的模型说明:

在 Unsloth Studio 中运行Qwen3.5-35B-A3B27B122B-A10B397B-A17B小型(0.8B - 9B)

Unsloth Dynamic GGUF 上传:

🦥 Unsloth Studio 指南

Qwen3.5 可以在 Unsloth Studio中运行和微调,我们新的本地 AI 开源 Web UI。Unsloth Studio 让你可以在本地运行模型,支持 MacOS、Windows、Linux 和:

1

安装 Unsloth

在你的终端中运行:

MacOS、Linux、WSL:

Windows PowerShell:

2

启动 Unsloth

MacOS、Linux、WSL 和 Windows:

然后打开 http://localhost:8888 在你的浏览器中。

3

搜索并下载 Qwen3.5

首次启动时,你需要创建一个密码来保护你的账户,并在之后再次登录。然后前往 Studio Chat 标签页,在搜索栏中搜索 Qwen3.5 并下载你想要的模型和量化版本。

4

运行 Qwen3.5

在使用 Unsloth Studio 时,推理参数应自动设置,不过你仍然可以手动更改。你也可以编辑上下文长度、聊天模板和其他设置。

更多信息可查看我们的 Unsloth Studio 推理指南.

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

在本指南中,我们将使用 Dynamic 4-bit,它在 24GB RAM / Mac 设备上表现很好,可实现快速推理。由于该模型在完整 F16 精度下只有大约 72GB,我们无需太担心性能。GGUF: Qwen3.5-35B-A3B-GGUF

在这些教程中,我们将使用 llama.cpp 进行快速本地推理,尤其是如果你有 CPU。

1

获取最新的 llama.cpp GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

2

如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按照下面其中一个特定命令操作:

思考模式:

精确编程任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer 之后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5 小型(0.8B • 2B • 4B • 9B)

对于 Qwen3.5 小型系列,由于它们非常小,你只需将脚本中的模型名称改为你想要的变体即可。对于这个特定指南,我们将使用 9B 参数变体。要以接近完整精度运行它们,你只需要一个 12GB RAM / VRAM / 统一内存设备。GGUF:

1

获取最新的 llama.cpp GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_XL)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按照下面其中一个特定命令操作:

思考模式(默认禁用)

通用任务:

非思考模式默认已经开启

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer 之后)下载模型。你可以选择 Q4_K_M 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5-27B

在本指南中,我们将使用 Dynamic 4-bit,它在 18GB RAM / Mac 设备上表现很好,可实现快速推理。GGUF: Qwen3.5-27B-GGUF

1

获取最新的 llama.cpp GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按照下面其中一个特定命令操作:

思考模式:

精确编程任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE 或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5-122B-A10B

在本指南中,我们将使用 Dynamic 4-bit,它在 70GB RAM / Mac 设备上表现很好,可实现快速推理。GGUF: Qwen3.5-122B-A10B-GGUF

1

获取最新的 llama.cpp GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

请根据你的使用场景,按照下面其中一个特定命令操作:

思考模式:

精确编程任务(例如 WebDev):

通用任务:

非思考模式:

通用任务:

推理任务:

3

通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试

4

然后在对话模式下运行模型:

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 处于同一性能档位。完整的 397B 检查点在磁盘上约为 ~807GB,但通过 Unsloth 的 397B GGUF 你可以运行:

  • 3 位:可放入 192GB RAM 系统(例如一台 192GB 的 Mac)

  • 4-bit(MXFP4):可放入 256GB RAM。Unsloth 4-bit 动态 UD-Q4_K_XL磁盘上约 ~214GB - 可直接加载在 256GB M3 Ultra

  • 可在 单个 24GB GPU + 256GB 系统 RAM 上运行 通过MoE 卸载 ,达到

  • 8 位 需要 ~512GB RAM/VRAM

查看 397B 量化基准 了解 Unsloth GGUF 的表现。

1

获取最新的 llama.cpp GitHub 这里。你也可以按照下面的构建说明。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU,或者只想进行 CPU 推理。

2

如果你想使用 llama.cpp 直接加载模型,你可以这样做:(:Q4_K_M)是量化类型。你也可以通过 Hugging Face 下载(第 3 点)。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。记住该模型的最大上下文长度只有 256K。

请参考这个用于 思考 模式:

请参考这个用于 非思考 模式:

3

通过(在安装 pip install huggingface_hub hf_transfer )。你可以选择 MXFP4_MOE (动态 4bit)或其他量化版本,例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化 UD-Q2_K_XL 以平衡大小和准确性。如果下载卡住,请参见: Hugging Face Hub,XET 调试

4

你可以编辑 --threads 32 用于 CPU 线程数, --n-gpu-layers 2 用于 GPU 卸载的层数。如果你的 GPU 显存不足,可以尝试调整它。如果你只有 CPU 推理,也请将其移除。

👾 LM Studio 指南

在本指南中,我们将使用 LM Studio,一个用于运行 LLM 的统一 UI 界面。默认情况下可能不会显示“💡Thinking”和“Non-thinking”切换,因此我们需要一些额外步骤让它工作。

1

下载 LM Studio 到你的设备。然后打开 Model Search,搜索 'unsloth/qwen3.5',并下载你想要的 GGUF(量化版本)。

2

思考切换说明: 下载后,打开你的终端 / PowerShell 并尝试: lms --help。如果 LM Studio 正常显示出许多命令,则运行:

这将获取一个 yaml 文件,使你的 GGUF 显示“💡Thinking”和“Non-thinking”切换。你可以更改 4b 为你想要的量化版本。

否则,你可以前往 我们的 LM Studio 页面 并下载特定的 yaml 文件。

3

重启 LM Studio,然后加载你下载的模型(带有你下载的特定思考切换)。你现在应该能看到思考切换已启用。别忘了设置 正确参数.

🦙 Llama-server 提供服务 & OpenAI 的 completion 库

要将 Qwen3.5-397B-A17B 用于生产部署,我们使用 llama-server 在一个新的终端中,例如通过 tmux,使用以下方式部署模型:

然后在一个新的终端中,在执行 pip install openai之后,执行:

🤔 如何启用或禁用推理与思考

对于下面的命令,你可以互换使用 'true' 和 'false'。

Unsloth Studio 会自动为思考模型提供一个 'Think' 切换。

要在 LM Studio 中拥有 Think 切换, 阅读我们的指南.

Unsloth Studio 默认带有 Think 切换

禁用 思考 / 推理,在 llama-server 中使用:

如果你在 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":false}"

启用 思考 / 推理,在 llama-server 中使用:

如果你在 Windows 或者在 Powershell 中,使用: --chat-template-kwargs "{\"enable_thinking\":true}"

例如,对于 Qwen3.5-9B,要启用思考(默认是禁用的):

然后在 Python 中:

👨‍💻 OpenAI Codex & Claude Code

要通过本地编码智能体工作负载运行模型,你可以 按照我们的指南。只需将模型名称改为你想要的“Qwen3.5”变体,并确保遵循正确的 Qwen3.5 参数和使用说明。使用该 llama-server 我们刚才才刚刚设置好。

例如,在按照 Claude Code 的说明操作后,你会看到:

然后我们可以比如这样问 创建一个国际象棋的 Python 游戏 :

🔨使用 Qwen3.5 进行工具调用

查看 Tool Calling Guide 关于如何进行工具调用的更多细节。在一个新的终端中(如果使用 tmux,请按 CTRL+B+D),我们创建一些工具,例如添加 2 个数字、执行 Python 代码、执行 Linux 函数等等:

然后我们使用下面这些函数(复制并粘贴后执行),它们会自动解析函数调用,并为任何模型调用 OpenAI 端点:

在通过以下方式启动 Qwen3.5 之后 llama-server 就像在 Qwen3.5 或者查看 Tool Calling Guide 了解更多细节后,我们就可以进行一些工具调用。

📊 基准测试

Unsloth GGUF 基准测试

我们更新了 Qwen3.5-35B Unsloth 动态量化 为当前最先进(SOTA) 在几乎所有位宽上都是如此。我们进行了 150 多次 KL 散度基准测试,总计 9TB 的 GGUF 文件。我们上传了所有研究成果。我们还修复了一个 工具调用 聊天模板 错误 (影响所有量化上传器)

  • 所有 GGUF 现在都已使用 改进的量化 算法更新。

  • 全部使用我们的 新的 imatrix 数据。在聊天、编程、长上下文和工具调用用例中可见一些改进。

  • Qwen3.5-35B-A3B GGUF 已更新为使用新的修复(112B、27B 仍在转换中,更新后请重新下载)

  • 99.9% 的 KL 散度表明其在 UD-Q4_K_XL、IQ3_XXS 等的帕累托前沿上处于 SOTA。

  • 弃用 MXFP4 从所有 GGUF 量化中移除:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,纯 MXFP4_MOE 除外。

35B-A3B - KLD 基准测试(越低越好)
122B-A10B - KLD 基准测试(越低越好)

在这里阅读我们详细的 QWEN3.5 分析 + 基准测试:

Qwen3.5 GGUF 基准测试

Qwen3.5-397B-A17B 基准测试

Benjamin Marie(第三方)进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF,在一个 750 条提示的混合套件 (LiveCodeBench v6、MMLU Pro、GPQA、Math500)上进行,报告了 总体准确率相对错误增加 (量化模型相较于原始模型更频繁出错的程度)。

关键结果(准确率;相对原始模型的变化;相对错误增加):

  • 原始权重: 81.3%

  • UD-Q4_K_XL: 80.5% (-0.8 个百分点;+4.3% 相对错误增加)

  • UD-Q3_K_XL: 80.7% (-0.6 个百分点;+3.5% 相对错误增加)

UD-Q4_K_XLUD-Q3_K_XL 与原始模型极其接近, 准确率下降远低于 1 个百分点 在这个套件上,Ben 暗示你可以 显著降低内存占用 (约少 500 GB),而在测试任务上几乎没有实际损失。

如何选择: 这里 Q3 的得分略高于 Q4,在如此规模下完全可能只是正常的运行间波动,所以请把 Q3 和 Q4 视为质量实际上相近 在这个基准测试中:

  • 选择 Q3 如果你想要 最小占用 / 最佳内存节省

  • 选择 Q4 如果你想要一个 稍微更保守的 选项, 结果相近 所有列出的量化都使用了我们的动态方法。即使

UD-IQ2_M 也采用了相同的动态方法,但转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 更快,尽管它更大,所以这就是为什么 也采用了相同的动态方法,但转换过程不同于 可能表现更好,尽管它更大,因此 也采用了相同的动态方法,但转换过程不同于 可能表现优于 其中 K-XL 通常比.

官方 Qwen 基准测试

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准测试

Qwen3.5-4B 和 9B 基准测试

Qwen3.5-397B-A17B 基准测试

最后更新于

这有帮助吗?