# Qwen3.5 GGUF 基准测试

我们更新了所有 [Qwen3.5](/docs/zh/mo-xing/qwen3.5.md) Unsloth 动态 量化 **成为 最先进 (SOTA)** 在几乎所有位数上。我们进行了超过 150 次 KL 散度基准测试，总计 **9TB 的 GGUF**。我们上传了所有研究工件。

我们还修复了一个 **工具调用** 聊天 模板 问题 **（影响所有量化上传器和类型，无论你在哪里使用或来自哪里）**.

{% hint style="success" %}
[**3 月 5 日 更新**](#id-4-march-5th-2026-update-more-robustness)**:** 重新下载 Qwen3.5-**35B**, **27B，** **122B** 和 **397B。**

* 所有 GGUF 现已使用 **改进的量化** 算法 更新。
* 全部使用我们的 **新 imatrix 数据**。在聊天、编码、长上下文和工具调用的用例中可见一些改进。

**新基准测试** Qwen3.5-122B-A10B 和 35-A3B 的新结果现已发布！
{% endhint %}

{% hint style="info" %}
想了解如何运行模型 + 硬件要求？阅读我们的 [推理 指南](/docs/zh/mo-xing/qwen3.5.md).
{% endhint %}

**99.9% KL 散度显示在帕累托前沿上达到 SOTA** 针对 [Unsloth 动态](/docs/zh/ji-chu/unsloth-dynamic-2.0-ggufs.md) `Q4_K_XL`, `IQ3_XXS` 等：

<div><figure><img src="/files/1194aa69fde6681315c4dffe1f10e095bf04afef" alt="" width="563"><figcaption><p>Qwen3.5-<strong>122B-A10B</strong> 基准测试</p></figcaption></figure> <figure><img src="/files/40d4f50187e7055ed83c7fcf33503f3b0367ac5b" alt="" width="563"><figcaption><p>Qwen3.5-<strong>35B-A3B</strong> 基准测试</p></figcaption></figure></div>

* Imatrix 确实有助于降低 KLD 和 PPL，但代价是推理速度慢 5-10%。
* 我们将我们的 GGUF 与许多其他提供者进行了测试
* 对 ssm\_out（Mamba 层）以及 ffn\_down\_exps 进行量化并不是一个好主意。
* **从 所有 GGUF 量化中 退役 MXFP4** ：Q2\_K\_XL、Q3\_K\_XL 和 Q4\_K\_XL，除非是纯 MXFP4\_MOE。

| [Qwen3.5-35B-A3B](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF) | [Qwen3.5-27B](https://huggingface.co/unsloth/Qwen3.5-27B-GGUF) | [Qwen3.5-122B-A10B](https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF) | [Qwen3.5-397B-A17B](https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF) |
| ---------------------------------------------------------------------- | -------------------------------------------------------------- | -------------------------------------------------------------------------- | -------------------------------------------------------------------------- |

<figure><img src="/files/254ed2d664b826f798f88b6254ec47fa2dd6803e" alt="" width="563"><figcaption><p>由 Benjamin Marie 进行的新 Qwen3.5-9B GGUF 基准测试</p></figcaption></figure>

### 1) **有些张量对量化非常敏感**

* 我们提供了超过 9TB 的研究工件供社区在我们的页面上进一步调查， [实验 页面](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF)。其中包含 KLD 指标和我们测试的全部 121 个配置。
* 我们在每种张量类型上改变了位宽，并生成了下面针对 99.9% KLD 的最佳和最差帕累托前沿图。
* 对于最适合量化的项，ffn\_up\_exps 和 ffn\_gate\_exps 通常可以量化到 3 位。ffn\_down\_exps 稍微更敏感一些。
* 对于最不适合的项，ssm\_out 会显著增加 KLD，且节省的磁盘空间微乎其微。例如，ssm\_out 在 q2\_k 时表现要差得多。 **对任何 attn\_\* 进行量化特别敏感** 对于混合架构，因此将它们保留为更高精度是有效的。

<figure><img src="/files/90a7adfdd96797148865af97688287b8b6845b9a" alt="" width="563"><figcaption></figcaption></figure>

{% columns %}
{% column %}
**张量类型与 99.9% KL 散度下的位数关系**

* 我们绘制了所有量化级别相对于 99.9% KLD 的图，并按从最差 KLD 到最好排序。对 ffn\_\* 层进行过度量化不是一个好主意。
* 然而， **有些位宽是合适的，尤其是 3 位**。- 例如将 ffn\_\*（down、up、gate）保持在约 iq3\_xxs 附近似乎是在磁盘空间和 99.9% KLD 变化之间的最佳折中。2 位会导致更多降级。
  {% endcolumn %}

{% column %}

<figure><img src="/files/d887e745ecc7fc2c916d285b5bca09069d0fcd18" alt="" width="188"><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

**MXFP4 在许多张量上要差得多** - 在 attn\_gate、attn\_q、ssm\_beta、ssm\_alpha 上使用 MXFP4 并不是一个好主意，Q4\_K 更好一些 - 另外 MXFP4 每个权重使用 4.25 位，而 Q4\_K 每个权重使用 4.5 位。在二者之间选择时，使用 Q4\_K 比 MXFP4 更好。

<div><figure><img src="/files/e2c1df00f4e771a26e231aee760df452b67f0475" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="/files/852d867f4d19a2dd5cdafa9b7d77be23d9e44367" alt="" width="563"><figcaption><p>如你所见 MXFP4 异常偏高</p></figcaption></figure></div>

### **2) Imatrix 效果很好**

* Imatrix 确实有助于以正确方式权衡量化过程。例如之前 ssm\_out 在 2 位时表现非常差，但 imatrix 大幅降低了 99.9% KLD。
* Imatrix 通常在较低位数上有帮助，并适用于所有量化器和位宽。
*

```
<figure><img src="/files/78ab3cff6bbcd697dbf0c40528a3300865515a22" alt=""><figcaption></figcaption></figure>
```

I 类量化（iq3\_xxs、iq2\_s 等）使推理变慢 5-10%，在效率方面它们确实更好，但存在权衡。

| 类型       | pp512（≈） | tg128（≈） |
| -------- | -------- | -------- |
| mxfp4    | 1978.69  | 90.67    |
| q4\_k    | 1976.44  | 90.38    |
| q3\_k    | 1972.61  | 91.36    |
| q6\_k    | 1964.55  | 90.50    |
| q2\_k    | 1964.20  | 90.77    |
| q8\_0    | 1964.17  | 90.33    |
| q5\_k    | 1947.74  | 90.72    |
| iq3\_xxs | 2030.94  | 85.68    |
| iq2\_xxs | 1997.64  | 85.79    |
| iq3\_s   | 1990.12  | 84.37    |
| iq2\_xs  | 1967.85  | 85.19    |
| iq2\_s   | 1952.50  | 85.04    |

### **3) 困惑度与 KLD 可能具有误导性**

困惑度和 KLD 可能具有误导性，因为它们高度受校准影响。大多数 GGUF 在 512 上下文窗口的 Wiki-test 上进行评估，因此如果 GGUF 的 imatrix 校准集包含类似维基百科和 512 上下文的样本（如大多数 GGUF 所做的），结果会发生很大变化。这就是为什么我们的 GGUF 有时显示更高的困惑度，因为我们的 imatrix 数据更倾向于使用长上下文聊天和工具调用示例。

<figure><img src="/files/fb33d5f655dfe59134b3cc15a5571f8854926e28" alt="" width="563"><figcaption></figcaption></figure>

[Benjamin 最近的 MiniMax‑M2.5 分析](https://x.com/bnjmn_marie/status/2027043753484021810) 展示了困惑度和 KLD 如何非常具有误导性的一个案例。Unsloth Dynamic IQ2\_XXS 在真实世界评估（LiveCodeBench v6、MMLU Pro）上表现优于 AesSedai 的 IQ3\_S，尽管它小 11GB。然而，AesSedai 的困惑度和 KLD 基准测试却给出相反的结论。（PPL：0.3552 vs 0.2441；KLD：9.0338 vs 8.2849 - 越低越好）。

<div><figure><img src="/files/b3379e89f52a2309869016c7ebdf9375d6739553" alt="" width="188"><figcaption><p>KL 散度 - AesSedai</p></figcaption></figure> <figure><img src="/files/678dff38fe72548b1a00d4209add2eb027131fe8" alt="" width="188"><figcaption><p>困惑度 - AesSedai</p></figcaption></figure></div>

这种不匹配表明较低的困惑度或 KLD 不一定转化为更好的现实世界表现。图表还显示 UD‑Q4-K‑XL 在表现上优于其他 Q4 量化，同时体积约小 \~8GB。这并不意味着困惑度或 KLD 无用，因为它们提供了粗略信号。因此，今后我们将为每个量化发布困惑度和 KLD，以便社区有某种参考。

### 4) 2026 年 3 月 5 日 更新 - 更强的鲁棒性

我们进一步增强了 Qwen3.5 MoE 的量化方法以直接减少最大 KLD。通常使用的是 99.9%，但对于极端离群值，最大 KLD 可能有用。我们的新方法相较于 3 月 5 日之前的更新通常将最大 KLD 大幅降低。

<figure><img src="/files/7ce67b2d7f7fd2043b2a1db4e179097f8206616e" alt=""><figcaption></figcaption></figure>

| 量化           | 旧 GB       | 新 GB         | 旧 最大 KLD | 新 最大 KLD           |
| ------------ | ---------- | ------------ | -------- | ------------------ |
| UD-Q2\_K\_XL | 12.0       | ***11.3***   | 8.237    | ***8.155***        |
| UD-Q3\_K\_XL | 16.1       | ***15.5***   | 5.505    | ***5.146***        |
| UD-Q4\_K\_XL | ***19.2*** | 20.7 (+7.8%) | 5.894    | ***2.877 (-51%)*** |
| UD-Q5\_K\_XL | ***23.2*** | 24.6 (+6%)   | 5.536    | ***3.210 (-42%)*** |

### 完整基准测试

| 量化器       | 量化级别             | 磁盘空间（GB）  | 困惑度（PPL） | KLD 99.9% | 平均 KLD |
| --------- | ---------------- | --------- | -------- | --------- | ------ |
| AesSedai  | IQ3\_S           | 12.65     | 6.9152   | 1.8669    | 0.0613 |
| AesSedai  | IQ4\_XS          | 16.4      | 6.6447   | 0.8067    | 0.0235 |
| AesSedai  | Q4\_K\_M         | 20.62     | 6.5665   | 0.3171    | 0.0096 |
| AesSedai  | Q5\_K\_M         | 24.45     | 6.5356   | 0.21      | 0.0058 |
| Ubergarm  | Q4\_0            | 19.79     | 6.5784   | 0.4829    | 0.0142 |
| Unsloth   | IQ2\_XXS         | 9.09      | 7.716    | 4.2221    | 0.1846 |
| Unsloth   | Q2\_K\_XL        | 12.04     | 7.0438   | 2.9092    | 0.097  |
| Unsloth   | IQ3\_XXS         | 13.12     | 6.7829   | 1.5296    | 0.0501 |
| Unsloth   | IQ3\_S           | 14.13     | 6.7715   | 1.4193    | 0.0457 |
| Unsloth   | Q3\_K\_M         | 15.54     | 6.732    | 0.9726    | 0.0324 |
| Unsloth   | Q3\_K\_XL        | 16.06     | 6.7245   | 0.9539    | 0.0308 |
| Unsloth   | MXFP4\_MOE       | 18.17     | 6.6      | 0.7789    | 0.0272 |
| Unsloth   | Q4\_K\_M         | 18.49     | 6.6053   | 0.5478    | 0.0192 |
| Unsloth   | Q4\_K\_L         | 18.82     | 6.5905   | 0.4828    | 0.015  |
| Unsloth   | Q4\_K\_XL        | 19.17     | 6.5918   | 0.4097    | 0.0137 |
| Unsloth   | Q5\_K\_XL        | 23.22     | 6.5489   | 0.236     | 0.0069 |
| Unsloth   | Q6\_K\_S         | 26.56     | 6.5456   | 0.2226    | 0.0065 |
| Unsloth   | Q6\_K\_XL        | 28.22     | 6.5392   | 0.1437    | 0.0041 |
| Unsloth   | Q8\_K\_XL        | 36.04     | 6.5352   | 0.1033    | 0.0026 |
| bartowski | Qwen\_IQ2\_XXS   | 8.15      | 9.3427   | 6.0607    | 0.3457 |
| bartowski | Qwen\_Q2\_K\_L   | 11.98     | 7.5504   | 3.8095    | 0.1559 |
| bartowski | Qwen\_IQ3\_XXS   | 12.94     | 7.0938   | 2.1563    | 0.0851 |
| bartowski | Qwen\_Q3\_K\_M   | 14.95     | 6.772    | 1.7779    | 0.0585 |
| bartowski | Qwen\_Q3\_K\_XL  | 15.97     | 6.8245   | 1.7516    | 0.0627 |
| bartowski | Qwen\_IQ4\_XS    | 17.42     | 6.6234   | 0.7265    | 0.0234 |
| bartowski | Qwen\_Q4\_K\_M   | 19.77[^1] | 6.6097   | 0.5771    | 0.0182 |
| bartowski | Qwen\_Q5\_K\_M   | 23.11     | 6.5828   | 0.3549    | 0.0106 |
| noctrex   | MXFP4\_MOE\_BF16 | 20.55     | 6.5948   | 0.7939    | 0.0248 |
| noctrex   | MXFP4\_MOE\_F16  | 20.55     | 6.5937   | 0.7614    | 0.0247 |

[^1]: Bartowski 的 Q4\_K\_M 比 Unsloth 的大 1GB


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/zh/mo-xing/qwen3.5/gguf-benchmarks.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
