💜Qwen3.5 - 如何本地运行指南

在本地设备上运行新的 Qwen3.5 系列模型，包括中型：Qwen3.5-35B-A3B、27B、122B-A10B，小型：Qwen3.5-0.8B、2B、4B、9B 和 397B-A17B！

Qwen3.5 是阿里巴巴的新模型家族，包括 Qwen3.5-35B-A3B， 27B, 122B-A10B 和 397B-A17B 以及新的 Small 系列：Qwen3.5-0.8B、2B、4B 和 9B。混合多模态推理的大模型在其规模内表现最强。它们支持 256K 上下文 跨 201 种语言，具有思考 + 非思考，并在代理编码、视觉、聊天和长上下文任务中表现出色。35B 和 27B 型号可在带有 22GB Mac / RAM 的设备上运行。查看所有此处的 GGUFs.

3 月 5 日更新： 重新下载 Qwen3.5-35B, 27B, 122B 和 397B.

所有 GGUF 现在都更新了，带有 改进的量化 算法。
全部使用我们的 全新 imatrix 数据。在聊天、编码、长上下文和工具调用等用例中可见一些改进。
工具调用已改进 在我们修复聊天模板之后。 修复是通用的 并适用于任何 Qwen3.5 格式和任何上传器。
查看新的 GGUF 基准测试 以获取 Unsloth 性能结果 + 我们的 MXFP4 调查.
我们将从 3 个 Qwen3.5 GGUF 中移除 MXFP4 层：Q2_K_XL、Q3_K_XL 和 Q4_K_XL。

所有上传都使用 Unsloth Dynamic 2.0 以实现最新的量化性能——因此 4 位量化将把重要层提升为 8 或 16 位。感谢 Qwen 在第一天就为 Unsloth 提供访问权限。你也可以微调 Qwen3.5 使用 Unsloth。

要启用或禁用思考，请参见 Qwen3.5.Qwen3.5 Small 模型默认禁用思考。另请参见 LM Studio 指南以启用思考开关。

35B-A3B 27B 122B-A10B 397B-A17B 微调 Qwen3.5 0.8B • 2B • 4B • 9B

⚙️ 使用指南

表格：推理硬件要求 （单位 = 总内存：RAM + VRAM，或统一内存）

Qwen3.5

3 位

4 位

6 位

8 位

BF16

0.8B + 2B

3 GB

3.5 GB

5 GB

7.5 GB

9 GB

4.5 GB

5.5 GB

7 GB

10 GB

14 GB

5.5 GB

6.5 GB

9 GB

13 GB

19 GB

27B

14 GB

17 GB

24 GB

30 GB

54 GB

35B-A3B

17 GB

22 GB

30 GB

38 GB

70 GB

122B-A10B

60 GB

70 GB

106 GB

132 GB

245 GB

397B-A17B

180 GB

214 GB

340 GB

512 GB

810 GB

为获得最佳性能，请确保您可用的总内存（VRAM + 系统 RAM）超过您正在下载的量化模型文件的大小。如果不足，llama.cpp 仍可通过 SSD/HDD 交换运行，但推理会较慢。

在 27B 和 35B-A3B之间，如果您想要稍微更准确的结果但无法适配您的设备，请使用 27B。若想要更快的推理，请选择 35B-A3B。

Qwen3.5 推理教程：

因为 Qwen3.5 有许多不同的规模，我们将在所有推理工作负载中使用 Dynamic 4-bit MXFP4_MOE 的 GGUF 变体。点击下面以导航到指定模型说明：

Qwen3.5-35B-A3B 27B 122B-A10B 397B-A17B Small（0.8B • 2B • 4B • 9B）LM Studio

Unsloth Dynamic GGUF 上传：

Qwen3.5-35B-A3B

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

presence_penalty = 0.0 到 2.0 默认情况下此项为关闭，但要减少重复您可以使用它，不过使用更高的值可能会导致 性能略有下降。

目前没有任何 Qwen3.5 GGUF 能在 Ollama 中工作，因为存在单独的 mmproj 视觉文件。请使用兼容 llama.cpp 的后端。

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

本指南我们将使用 Dynamic 4-bit，这在 24GB RAM / Mac 设备上可实现快速推理。因为模型在完整 F16 精度下大约 72GB，我们不必过于担心性能。GGUF： Qwen3.5-35B-A3B-GGUF

在这些教程中，我们将使用 llama.cpp 进行快速本地推理，尤其是当你有 CPU 时。

获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续——Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，你可以如下操作：（:Q4_K_M）是量化类型。你也可以通过 Hugging Face（第 3 点）下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例，执行下面的特定命令之一：

思考模式：

精确编码任务（例如 WebDev）：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

非思考模式：

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-35B-A3B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ）之后。你可以选择 Q4_K_M 或其他量化版本，例如 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住，请参见： Hugging Face Hub、XET 调试

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后以对话模式运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5 Small（0.8B • 2B • 4B • 9B）

对于 Qwen3.5 0.8B、2B、4B 和 9B， 推理默认被禁用 。。要启用它，请使用： --chat-template-kwargs '{"enable_thinking":true}'

在 Windows 上使用： --chat-template-kwargs "{\"enable_thinking\":true}"

对于 Qwen3.5 Small 系列，因为它们非常小，你只需在脚本中将模型名称更改为所需变体。在本指南中我们将使用 9B 参数变体。若要以接近全精度运行它们，你只需要 12GB 的 RAM / VRAM / 统一内存设备。GGUFs：

获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 直接加载模型，你可以如下操作：（:Q4_K_XL）是量化类型。你也可以通过 Hugging Face（第 3 点）下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 保存到特定位置。该模型的最大上下文长度为 256K。

根据你的用例，执行下面的特定命令之一：

若要使用除 9B 之外的其他变体，你可以将 '9B' 更改为：0.8B、2B 或 4B 等。

思考模式（默认禁用）

Qwen3.5 Small 模型默认禁用思考。使用 llama-server 来启用它。

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

若要使用除 9B 之外的其他变体，你可以将 '9B' 更改为：0.8B、2B 或 4B 等。

非思考模式默认已开启

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-9B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-9B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

hf download unsloth/Qwen3.5-9B-GGUF \
    --local-dir unsloth/Qwen3.5-9B-GGUF \
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后以对话模式运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-9B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-27B

本指南我们将使用 Dynamic 4-bit，这在 18GB RAM / Mac 设备上可实现快速推理。GGUF： Qwen3.5-27B-GGUF

获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

根据你的用例，执行下面的特定命令之一：

思考模式：

精确编码任务（例如 WebDev）：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

非思考模式：

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-27B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-27B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ）。你可以选择 MXFP4_MOE 或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住，请参见： Hugging Face Hub、XET 调试

hf download unsloth/Qwen3.5-27B-GGUF \
    --local-dir unsloth/Qwen3.5-27B-GGUF \
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后以对话模式运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-27B-GGUF/Qwen3.5-27B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-27B-GGUF/mmproj-F16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.00 \
    --top-k 20

Qwen3.5-122B-A10B

本指南我们将使用 Dynamic 4-bit，这在 70GB RAM / Mac 设备上可实现快速推理。GGUF： Qwen3.5-122B-A10B-GGUF

获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

根据你的用例，执行下面的特定命令之一：

思考模式：

精确编码任务（例如 WebDev）：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

非思考模式：

通用任务：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

推理任务：

export LLAMA_CACHE="unsloth/Qwen3.5-122B-A10B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-122B-A10B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ）。你可以选择 MXFP4_MOE （动态 4bit）或其他像这样的量化版本 UD-Q4_K_XL 。我们建议至少使用 2 位动态量化以平衡大小和准确性。 UD-Q2_K_XL 如果下载卡住，请参见： Hugging Face Hub、XET 调试

hf download unsloth/Qwen3.5-122B-A10B-GGUF \
    --local-dir unsloth/Qwen3.5-122B-A10B-GGUF \
    --include "*UD-Q4_K_XL*" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

然后以对话模式运行模型：

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-122B-A10B-GGUF/UD-Q4_K_XL/Qwen3.5-122B-A10B-UD-Q4_K_XL-00001-of-00003.gguf \
    --mmproj unsloth/Qwen3.5-122B-A10B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

Qwen3.5-397B-A17B

Qwen3.5-397B-A17B 与 Gemini 3 Pro、Claude Opus 4.5 和 GPT-5.2 属于相同的性能等级。完整的 397B 检查点在磁盘上约为 ~807GB，但通过 Unsloth 的 397B GGUFs 你可以运行：

3 位: 可适配 192GB 内存 系统（例如，192GB 的 Mac）
4 位（MXFP4）: 可适配 256GB 内存。Unsloth 4 位动态 UD-Q4_K_XL 是 ~214GB 在磁盘上 - 可直接加载到 256GB M3 Ultra
可在 单个 24GB GPU + 256GB 系统内存 上运行，通过MoE 卸载，达到
8 位 25+ 令牌/秒需要

~512GB RAM/VRAM 请参见 397B 量化基准测试

获取最新的 llama.cpp 在 此处的 GitHub。你也可以按照下面的构建说明。若没有 GPU 或只想要 CPU 推理，请将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

如果你想直接使用 llama.cpp 来加载模型，你可以如下操作：（:Q4_K_M）是量化类型。你也可以通过 Hugging Face（第 3 点）下载。这类似于 ollama run 。使用 export LLAMA_CACHE="folder" 来强制 llama.cpp 以了解 Unsloth GGUFs 的性能。

将其保存到特定位置。请记住该模型只有最大 256K 的上下文长度。思考按以下模式操作：

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

将其保存到特定位置。请记住该模型只有最大 256K 的上下文长度。 非思考 按以下模式操作：

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-server \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:UD-Q4_K_XL \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs '{"enable_thinking":false}'

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \
    --include "*UD-Q4_K_XL" # 动态 2bit 请使用 "*UD-Q2_K_XL*"

你可以编辑 --threads 32 来设置 CPU 线程数， --ctx-size 16384 来设置上下文长度， --n-gpu-layers 2 来设置用于 GPU 卸载的层数。若你的 GPU 出现内存不足，请尝试调节该项。如果仅使用 CPU 推理，也可移除该项。

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/UD-Q4_K_XL/Qwen3.5-397B-A17B-UD-Q4_K_XL-00001-of-00006.gguf \
    --mmproj unsloth/Qwen3.5-397B-A17B-GGUF/mmproj-F16.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

👾 LM Studio 指南

在本指南中，我们将使用 LM Studio，一个用于运行大模型的统一 UI 界面。“💡Thinking”和“Non-thinking”切换默认可能不会出现，因此我们需要一些额外步骤来使其生效。

下载 LM Studio 适用于你的设备。然后打开模型搜索，搜索 'unsloth/qwen3.5'，并下载你想要的 GGUF（量化）文件。

思考开关说明： 下载后，打开终端 / PowerShell 并尝试： lms --help。然后如果 LM Studio 正常出现并显示许多命令，运行：

lms get unsloth/qwen3.5-4b

这将获取一个 yaml 文件，使你的 GGUF 显示“💡Thinking”和“Non-thinking”切换。你可以将 4b 更改为你希望的量化版本。

否则，你可以转到我们的 LM Studio 页面并下载特定的 yaml 文件。

重启 LM Studio，然后加载你下载的模型（带有你下载的思考切换）。你现在应该能看到思考切换已启用。别忘了设置正确的参数.

🦙 Llama-server 服务 & OpenAI 的完成库

要将 Qwen3.5-397B-A17B 部署到生产环境，我们使用 llama-server 在新的终端（例如通过 tmux）中，通过以下命令部署模型：

./llama.cpp/llama-server \
--model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3.5-35B-A3B-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001

然后在新终端中，在执行了 pip install openai之后，执行：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)

🤔 如何启用或禁用推理与思考

对于下面的命令，你可以互换使用 'true' 和 'false'. 要在 LM Studio 中显示思考开关，请阅读我们的指南禁用.

要 思考 / 推理，在 llama-server 中使用： 或在 Powershell 中使用：

    --chat-template-kwargs '{"enable_thinking":false}'

如果您在使用 Windows 启用 --chat-template-kwargs "{\"enable_thinking\":false}"

要 并在 Windows 或 Powershell 上： 或在 Powershell 中使用：

    --chat-template-kwargs '{"enable_thinking":true}'

如果您在使用 Windows 启用 --chat-template-kwargs "{\"enable_thinking\":true}"

对于 Qwen3.5 0.8B、2B、4B 和 9B，默认情况下推理被禁用。要启用它，请使用： --chat-template-kwargs '{"enable_thinking":true}'

作为 Qwen3.5-9B 启用思考的示例（默认禁用）： --chat-template-kwargs "{\"enable_thinking\":true}"

--model unsloth/Qwen3.5-9B-GGUF/Qwen3.5-9B-BF16.gguf \

./llama.cpp/llama-server \
    然后在 Python 中：
    --alias "unsloth/Qwen3.5-9B-GGUF" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'

model = "unsloth/Qwen3.5-9B-GGUF",

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    messages = [{"role": "user", "content": "What is 2+2?"},],
    print(completion.choices[0].message.reasoning_content)
)
print(completion.choices[0].message.content)
👨‍💻 OpenAI Codex & Claude Code

要通过本地编码代理工作负载运行模型，你可以

按照我们的指南。只需将模型名称更改为你想要的 'Qwen3.5' 变体，并确保遵循正确的 Qwen3.5 参数和使用说明。使用我们刚才设置的。 llama-server 按照例如 Claude Code 的说明操作后，你将看到：

Claude Code

OpenAI Codex

然后我们可以比如这样请求

创建一个 Python 国际象棋游戏 Qwen3.5 的工具调用 :

🔨有关如何进行工具调用的更多细节，请参见。在新终端中（如果使用 tmux，使用 CTRL+B+D），我们创建一些工具，比如相加两个数字、执行 Python 代码、执行 Linux 操作等：

~512GB RAM/VRAM Tool Calling Guide import json, subprocess, random

from typing import Any
def add_number(a: float | str, b: float | str) -> float:
return float(a) + float(b)
    def multiply_number(a: float | str, b: float | str) -> float:
return float(a) * float(b)
    def substract_number(a: float | str, b: float | str) -> float:
return float(a) - float(b)
    def write_a_story() -> str:
return random.choice([
    "很久以前在一个遥远的星系……",
        "有两个喜欢树懒和代码的朋友……",
        "世界正在终结，因为每只树懒都进化出超常智能……",
        "其中一个朋友不知道，另一个朋友意外地编写了一个让树懒进化的程序……",
        def terminal(command: str) -> str:
    ])
if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
    msg = "无法执行 'rm, sudo, dd, chmod' 等危险命令"
        print(msg); return msg
        print(f"正在执行终端命令 `{command}`")
    try:
    return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
        except subprocess.CalledProcessError as e:
    return f"命令失败： {e.stderr}"
        def python(code: str) -> str:
data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
    MAP_FN = {
"add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
    tools = [
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "将两个数字相加.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字.",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "将两个数字相乘.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字.",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "减去两个数字.",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "第一个数字.",
                    },
                    "b": {
                        "type": "string",
                        "description": "第二个数字.",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "编写一个随机故事.",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "从终端执行操作.",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "您希望运行的命令，例如 `ls`、`rm` 等。",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "调用 Python 解释器并运行一些 Python 代码.",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "要运行的 Python 代码",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

然后我们使用下面的函数（复制并粘贴并执行），这些函数会自动解析函数调用并针对任何模型调用 OpenAI 端点：

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"Using model = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Current messages = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        else:
            has_tool_calls = False
    return messages

在通过启动 Qwen3.5 后，使用 llama-server 像在 Qwen3.5 或参见 Tool Calling Guide 了解更多细节，我们随后可以进行一些工具调用.

📊 基准测试

Unsloth GGUF 基准

我们更新了 Qwen3.5-35B Unsloth 动态量化 在几乎所有方面达到最新水平 我们进行了超过 150 次 KL 散度基准测试，总计 9TB 的 GGUF。我们上传了所有研究工件。我们还修复了一个 工具调用 聊天模板错误（影响所有量化上传器）

所有 GGUF 现在都更新了，带有 改进的量化 算法。
全部使用我们的 全新 imatrix 数据。在聊天、编码、长上下文和工具调用等用例中可见一些改进。
Qwen3.5-35B-A3B 的 GGUF 已更新以使用新修复（112B、27B 仍在转换中，更新后请重新下载）
99.9% 的 KL 散度显示处于最新水平 在帕累托前沿上对于 UD-Q4_K_XL、IQ3_XXS 等表现优异。
从所有 GGUF 量化中弃用 MXFP4 除了纯 MXFP4_MOE 外：Q2_K_XL、Q3_K_XL 和 Q4_K_XL。

在此阅读我们详尽的 Qwen3.5 分析 + 基准：

Qwen3.5 GGUF 基准

Qwen3.5-397B-A17B 基准

Benjamin Marie（第三方）进行了基准测试 Qwen3.5-397B-A17B 使用 Unsloth GGUF 在一台 750 个提示的混合套件上 （LiveCodeBench v6、MMLU Pro、GPQA、Math500），报告了 整体准确率 和 相对错误增加 （量化模型相比原始模型犯错的相对增加程度）。

关键结果（准确率；相对于原始的变化；相对错误增加）：

原始权重： 81.3%
UD-Q4_K_XL： 80.5% （−0.8 点；相对错误增加 +4.3%）
UD-Q3_K_XL： 80.7% （−0.6 点；相对错误增加 +3.5%）

UD-Q4_K_XL 和 UD-Q3_K_XL 与原始模型非常接近， 在此套件上的准确率下降远低于 1 点 在本套件上，Ben 暗示您可以 显著减少内存占用 (大约少 500 GB）在测试任务上几乎没有实际损失。

如何选择： Q3 在此处得分略高于 Q4 完全可能只是此规模的正常运行间差异，因此应将 在此基准中将 Q3 和 Q4 视为质量相近 ：

选择 Q3 如果您想要 最小的占用 / 最佳内存节省
选择 Q4 如果您想要一个 稍微更保守的 选项，具有 相似的 结果

所有列出的量化均采用我们的动态方法论。即使 UD-IQ2_M 也使用相同的动态方法论，然而转换过程不同于 UD-Q2-K-XL 其中 K-XL 通常比 UD-IQ2_M 更快，尽管它更大，这就是为什么 UD-IQ2_M 可能比 UD-Q2-K-XL.

官方 Qwen 基准

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准

Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准

上一页Ultra Long Context RL 下一页Qwen3.5 GGUF 基准

最后更新于5天前

这有帮助吗？

💜Qwen3.5 - 如何本地运行指南

⚙️ 使用指南

推荐设置

思考模式：

指令（非思考）模式设置：

Qwen3.5 推理教程：

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

Qwen3.5 Small（0.8B • 2B • 4B • 9B）

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 LM Studio 指南

🦙 Llama-server 服务 & OpenAI 的完成库

🤔 如何启用或禁用推理与思考

要通过本地编码代理工作负载运行模型，你可以

🔨有关如何进行工具调用的更多细节，请参见。在新终端中（如果使用 tmux，使用 CTRL+B+D），我们创建一些工具，比如相加两个数字、执行 Python 代码、执行 Linux 操作等：

📊 基准测试

Unsloth GGUF 基准

Qwen3.5-397B-A17B 基准

官方 Qwen 基准

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准

Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准

hashtag⚙️ 使用指南

hashtag推荐设置

hashtag思考模式：

hashtag指令（非思考）模式设置：

hashtagQwen3.5 推理教程：

hashtag🦙 Llama.cpp 指南

hashtagQwen3.5-35B-A3B

hashtagQwen3.5 Small（0.8B • 2B • 4B • 9B）

hashtagQwen3.5-27B

hashtagQwen3.5-122B-A10B

hashtagQwen3.5-397B-A17B

hashtag👾 LM Studio 指南

hashtag🦙 Llama-server 服务 & OpenAI 的完成库

hashtag🤔 如何启用或禁用推理与思考

hashtag要通过本地编码代理工作负载运行模型，你可以

hashtag🔨有关如何进行工具调用的更多细节，请参见。 在新终端中（如果使用 tmux，使用 CTRL+B+D），我们创建一些工具，比如相加两个数字、执行 Python 代码、执行 Linux 操作等：

hashtag📊 基准测试

hashtagUnsloth GGUF 基准

hashtagQwen3.5-397B-A17B 基准

hashtag官方 Qwen 基准

hashtagQwen3.5-35B-A3B、27B 和 122B-A10B 基准

hashtagQwen3.5-4B 和 9B 基准

hashtagQwen3.5-397B-A17B 基准

⚙️ 使用指南

推荐设置

思考模式：

指令（非思考）模式设置：

Qwen3.5 推理教程：

🦙 Llama.cpp 指南

Qwen3.5-35B-A3B

Qwen3.5 Small（0.8B • 2B • 4B • 9B）

Qwen3.5-27B

Qwen3.5-122B-A10B

Qwen3.5-397B-A17B

👾 LM Studio 指南

🦙 Llama-server 服务 & OpenAI 的完成库

🤔 如何启用或禁用推理与思考

要通过本地编码代理工作负载运行模型，你可以

🔨有关如何进行工具调用的更多细节，请参见。在新终端中（如果使用 tmux，使用 CTRL+B+D），我们创建一些工具，比如相加两个数字、执行 Python 代码、执行 Linux 操作等：

📊 基准测试

Unsloth GGUF 基准

Qwen3.5-397B-A17B 基准

官方 Qwen 基准

Qwen3.5-35B-A3B、27B 和 122B-A10B 基准

Qwen3.5-4B 和 9B 基准

Qwen3.5-397B-A17B 基准