# Qwen3.5 GGUF 基准测试

我们更新了所有 [Qwen3.5](https://unsloth.ai/docs/zh/mo-xing/qwen3.5) Unsloth 动态 量化 **成为 最先进 (SOTA)** 在几乎所有位数上。我们进行了超过 150 次 KL 散度基准测试，总计 **9TB 的 GGUF**。我们上传了所有研究工件。

我们还修复了一个 **工具调用** 聊天 模板 问题 **（影响所有量化上传器和类型，无论你在哪里使用或来自哪里）**.

{% hint style="success" %}
[**3 月 5 日 更新**](#id-4-march-5th-2026-update-more-robustness)**:** 重新下载 Qwen3.5-**35B**, **27B，** **122B** 和 **397B。**

* 所有 GGUF 现已使用 **改进的量化** 算法 更新。
* 全部使用我们的 **新 imatrix 数据**。在聊天、编码、长上下文和工具调用的用例中可见一些改进。

**新基准测试** Qwen3.5-122B-A10B 和 35-A3B 的新结果现已发布！
{% endhint %}

{% hint style="info" %}
想了解如何运行模型 + 硬件要求？阅读我们的 [推理 指南](https://unsloth.ai/docs/zh/mo-xing/qwen3.5).
{% endhint %}

**99.9% KL 散度显示在帕累托前沿上达到 SOTA** 针对 [Unsloth 动态](https://unsloth.ai/docs/zh/ji-chu-zhi-shi/unsloth-dynamic-2.0-ggufs) `Q4_K_XL`, `IQ3_XXS` 等：

<div><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F1XLNe1MoxtF1ODs5gDej%2F122b%20final.png?alt=media&#x26;token=9eee5d8d-f16c-4c3f-8e36-18856e5609aa" alt="" width="563"><figcaption><p>Qwen3.5-<strong>122B-A10B</strong> 基准测试</p></figcaption></figure> <figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FAeecRAsAA3lxJ36HI8pO%2Fhoriztonal%20plot.png?alt=media&#x26;token=173d4050-9442-4d2b-9f1b-ee8bd0d423df" alt="" width="563"><figcaption><p>Qwen3.5-<strong>35B-A3B</strong> 基准测试</p></figcaption></figure></div>

* Imatrix 确实有助于降低 KLD 和 PPL，但代价是推理速度慢 5-10%。
* 我们将我们的 GGUF 与许多其他提供者进行了测试
* 对 ssm\_out（Mamba 层）以及 ffn\_down\_exps 进行量化并不是一个好主意。
* **从 所有 GGUF 量化中 退役 MXFP4** ：Q2\_K\_XL、Q3\_K\_XL 和 Q4\_K\_XL，除非是纯 MXFP4\_MOE。

| [Qwen3.5-35B-A3B](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF) | [Qwen3.5-27B](https://huggingface.co/unsloth/Qwen3.5-27B-GGUF) | [Qwen3.5-122B-A10B](https://huggingface.co/unsloth/Qwen3.5-122B-A10B-GGUF) | [Qwen3.5-397B-A17B](https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF) |
| ---------------------------------------------------------------------- | -------------------------------------------------------------- | -------------------------------------------------------------------------- | -------------------------------------------------------------------------- |

<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FHq3gIokmPZJRYlnKVFmH%2FHCp7gV9XgAEP5og.png?alt=media&#x26;token=a1268383-1648-45f8-996d-c89c7dde3706" alt="" width="563"><figcaption><p>由 Benjamin Marie 进行的新 Qwen3.5-9B GGUF 基准测试</p></figcaption></figure>

### 1) **有些张量对量化非常敏感**

* 我们提供了超过 9TB 的研究工件供社区在我们的页面上进一步调查， [实验 页面](https://huggingface.co/unsloth/Qwen3.5-35B-A3B-Experiments-GGUF)。其中包含 KLD 指标和我们测试的全部 121 个配置。
* 我们在每种张量类型上改变了位宽，并生成了下面针对 99.9% KLD 的最佳和最差帕累托前沿图。
* 对于最适合量化的项，ffn\_up\_exps 和 ffn\_gate\_exps 通常可以量化到 3 位。ffn\_down\_exps 稍微更敏感一些。
* 对于最不适合的项，ssm\_out 会显著增加 KLD，且节省的磁盘空间微乎其微。例如，ssm\_out 在 q2\_k 时表现要差得多。 **对任何 attn\_\* 进行量化特别敏感** 对于混合架构，因此将它们保留为更高精度是有效的。

<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F485gYwcqz2az5Pm9v3u3%2Fnew-qwen3-5-35b-a3b-unsloth-dynamic-ggufs-benchmarks-v0-pakdmbv1n2mg1.webp?alt=media&#x26;token=2eeb55ca-51f3-402a-ae30-ea078c7554da" alt="" width="563"><figcaption></figcaption></figure>

{% columns %}
{% column %}
**张量类型与 99.9% KL 散度下的位数关系**

* 我们绘制了所有量化级别相对于 99.9% KLD 的图，并按从最差 KLD 到最好排序。对 ffn\_\* 层进行过度量化不是一个好主意。
* 然而， **有些位宽是合适的，尤其是 3 位**。- 例如将 ffn\_\*（down、up、gate）保持在约 iq3\_xxs 附近似乎是在磁盘空间和 99.9% KLD 变化之间的最佳折中。2 位会导致更多降级。
  {% endcolumn %}

{% column %}

<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FcE0WAmPVddczWC3dQsWS%2Fnew-qwen3-5-35b-a3b-unsloth-dynamic-ggufs-benchmarks-v0-squz1jz4n2mg1.webp?alt=media&#x26;token=3a31adf1-7c4c-446c-91a7-48e63d223189" alt="" width="188"><figcaption></figcaption></figure>
{% endcolumn %}
{% endcolumns %}

**MXFP4 在许多张量上要差得多** - 在 attn\_gate、attn\_q、ssm\_beta、ssm\_alpha 上使用 MXFP4 并不是一个好主意，Q4\_K 更好一些 - 另外 MXFP4 每个权重使用 4.25 位，而 Q4\_K 每个权重使用 4.5 位。在二者之间选择时，使用 Q4\_K 比 MXFP4 更好。

<div><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FH8FliHXsetx9lLoKelPX%2Fnew-qwen3-5-35b-a3b-unsloth-dynamic-ggufs-benchmarks-v0-xgugdgzmv2mg1.webp?alt=media&#x26;token=f0c49e94-571e-4883-84fe-2c4634d425eb" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FEWsX87d1Ig42Uk81fpJo%2Ffixed%20the%20grapg.png?alt=media&#x26;token=323932fd-8344-4f6c-b8c3-47cc1b1f6ccf" alt="" width="563"><figcaption><p>如你所见 MXFP4 异常偏高</p></figcaption></figure></div>

### **2) Imatrix 效果很好**

* Imatrix 确实有助于以正确方式权衡量化过程。例如之前 ssm\_out 在 2 位时表现非常差，但 imatrix 大幅降低了 99.9% KLD。
* Imatrix 通常在较低位数上有帮助，并适用于所有量化器和位宽。
*

```
<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F7C21WEWowydwYfEiOYqC%2Fnew-qwen3-5-35b-a3b-unsloth-dynamic-ggufs-benchmarks-v0-yidhlf79o2mg1.webp?alt=media&#x26;token=6cb85d6f-e148-4db6-a39f-f2b5109e0fdd" alt=""><figcaption></figcaption></figure>
```

I 类量化（iq3\_xxs、iq2\_s 等）使推理变慢 5-10%，在效率方面它们确实更好，但存在权衡。

| 类型       | pp512（≈） | tg128（≈） |
| -------- | -------- | -------- |
| mxfp4    | 1978.69  | 90.67    |
| q4\_k    | 1976.44  | 90.38    |
| q3\_k    | 1972.61  | 91.36    |
| q6\_k    | 1964.55  | 90.50    |
| q2\_k    | 1964.20  | 90.77    |
| q8\_0    | 1964.17  | 90.33    |
| q5\_k    | 1947.74  | 90.72    |
| iq3\_xxs | 2030.94  | 85.68    |
| iq2\_xxs | 1997.64  | 85.79    |
| iq3\_s   | 1990.12  | 84.37    |
| iq2\_xs  | 1967.85  | 85.19    |
| iq2\_s   | 1952.50  | 85.04    |

### **3) 困惑度与 KLD 可能具有误导性**

困惑度和 KLD 可能具有误导性，因为它们高度受校准影响。大多数 GGUF 在 512 上下文窗口的 Wiki-test 上进行评估，因此如果 GGUF 的 imatrix 校准集包含类似维基百科和 512 上下文的样本（如大多数 GGUF 所做的），结果会发生很大变化。这就是为什么我们的 GGUF 有时显示更高的困惑度，因为我们的 imatrix 数据更倾向于使用长上下文聊天和工具调用示例。

<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FhfO2gsbz2lWrZXg3ojyE%2FHCGBTzgboAASv_A.png?alt=media&#x26;token=7d6334ca-4f3c-4946-aacd-d55527375fce" alt="" width="563"><figcaption></figcaption></figure>

[Benjamin 最近的 MiniMax‑M2.5 分析](https://x.com/bnjmn_marie/status/2027043753484021810) 展示了困惑度和 KLD 如何非常具有误导性的一个案例。Unsloth Dynamic IQ2\_XXS 在真实世界评估（LiveCodeBench v6、MMLU Pro）上表现优于 AesSedai 的 IQ3\_S，尽管它小 11GB。然而，AesSedai 的困惑度和 KLD 基准测试却给出相反的结论。（PPL：0.3552 vs 0.2441；KLD：9.0338 vs 8.2849 - 越低越好）。

<div><figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F7csgZI82adnvKmQQVlp1%2F01_kld_vs_filesize_pareto.png?alt=media&#x26;token=d907a2c0-7df5-4e6a-9d9b-0524c8e6ae77" alt="" width="188"><figcaption><p>KL 散度 - AesSedai</p></figcaption></figure> <figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fd8KBa3uNhkDEZzq32v7q%2F02_ppl_vs_filesize_pareto.png?alt=media&#x26;token=d471fce1-7482-4fde-bc98-2d10503253a4" alt="" width="188"><figcaption><p>困惑度 - AesSedai</p></figcaption></figure></div>

这种不匹配表明较低的困惑度或 KLD 不一定转化为更好的现实世界表现。图表还显示 UD‑Q4-K‑XL 在表现上优于其他 Q4 量化，同时体积约小 \~8GB。这并不意味着困惑度或 KLD 无用，因为它们提供了粗略信号。因此，今后我们将为每个量化发布困惑度和 KLD，以便社区有某种参考。

### 4) 2026 年 3 月 5 日 更新 - 更强的鲁棒性

我们进一步增强了 Qwen3.5 MoE 的量化方法以直接减少最大 KLD。通常使用的是 99.9%，但对于极端离群值，最大 KLD 可能有用。我们的新方法相较于 3 月 5 日之前的更新通常将最大 KLD 大幅降低。

<figure><img src="https://2657992854-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fqxt3Dv8HIOWG8y3RvNYf%2FCode_Generated_Image(11).png?alt=media&#x26;token=54e20159-4243-42cf-89de-d2c9d7b6409b" alt=""><figcaption></figcaption></figure>

| 量化           | 旧 GB       | 新 GB         | 旧 最大 KLD | 新 最大 KLD           |
| ------------ | ---------- | ------------ | -------- | ------------------ |
| UD-Q2\_K\_XL | 12.0       | ***11.3***   | 8.237    | ***8.155***        |
| UD-Q3\_K\_XL | 16.1       | ***15.5***   | 5.505    | ***5.146***        |
| UD-Q4\_K\_XL | ***19.2*** | 20.7 (+7.8%) | 5.894    | ***2.877 (-51%)*** |
| UD-Q5\_K\_XL | ***23.2*** | 24.6 (+6%)   | 5.536    | ***3.210 (-42%)*** |

### 完整基准测试

| 量化器       | 量化级别             | 磁盘空间（GB）  | 困惑度（PPL） | KLD 99.9% | 平均 KLD |
| --------- | ---------------- | --------- | -------- | --------- | ------ |
| AesSedai  | IQ3\_S           | 12.65     | 6.9152   | 1.8669    | 0.0613 |
| AesSedai  | IQ4\_XS          | 16.4      | 6.6447   | 0.8067    | 0.0235 |
| AesSedai  | Q4\_K\_M         | 20.62     | 6.5665   | 0.3171    | 0.0096 |
| AesSedai  | Q5\_K\_M         | 24.45     | 6.5356   | 0.21      | 0.0058 |
| Ubergarm  | Q4\_0            | 19.79     | 6.5784   | 0.4829    | 0.0142 |
| Unsloth   | IQ2\_XXS         | 9.09      | 7.716    | 4.2221    | 0.1846 |
| Unsloth   | Q2\_K\_XL        | 12.04     | 7.0438   | 2.9092    | 0.097  |
| Unsloth   | IQ3\_XXS         | 13.12     | 6.7829   | 1.5296    | 0.0501 |
| Unsloth   | IQ3\_S           | 14.13     | 6.7715   | 1.4193    | 0.0457 |
| Unsloth   | Q3\_K\_M         | 15.54     | 6.732    | 0.9726    | 0.0324 |
| Unsloth   | Q3\_K\_XL        | 16.06     | 6.7245   | 0.9539    | 0.0308 |
| Unsloth   | MXFP4\_MOE       | 18.17     | 6.6      | 0.7789    | 0.0272 |
| Unsloth   | Q4\_K\_M         | 18.49     | 6.6053   | 0.5478    | 0.0192 |
| Unsloth   | Q4\_K\_L         | 18.82     | 6.5905   | 0.4828    | 0.015  |
| Unsloth   | Q4\_K\_XL        | 19.17     | 6.5918   | 0.4097    | 0.0137 |
| Unsloth   | Q5\_K\_XL        | 23.22     | 6.5489   | 0.236     | 0.0069 |
| Unsloth   | Q6\_K\_S         | 26.56     | 6.5456   | 0.2226    | 0.0065 |
| Unsloth   | Q6\_K\_XL        | 28.22     | 6.5392   | 0.1437    | 0.0041 |
| Unsloth   | Q8\_K\_XL        | 36.04     | 6.5352   | 0.1033    | 0.0026 |
| bartowski | Qwen\_IQ2\_XXS   | 8.15      | 9.3427   | 6.0607    | 0.3457 |
| bartowski | Qwen\_Q2\_K\_L   | 11.98     | 7.5504   | 3.8095    | 0.1559 |
| bartowski | Qwen\_IQ3\_XXS   | 12.94     | 7.0938   | 2.1563    | 0.0851 |
| bartowski | Qwen\_Q3\_K\_M   | 14.95     | 6.772    | 1.7779    | 0.0585 |
| bartowski | Qwen\_Q3\_K\_XL  | 15.97     | 6.8245   | 1.7516    | 0.0627 |
| bartowski | Qwen\_IQ4\_XS    | 17.42     | 6.6234   | 0.7265    | 0.0234 |
| bartowski | Qwen\_Q4\_K\_M   | 19.77[^1] | 6.6097   | 0.5771    | 0.0182 |
| bartowski | Qwen\_Q5\_K\_M   | 23.11     | 6.5828   | 0.3549    | 0.0106 |
| noctrex   | MXFP4\_MOE\_BF16 | 20.55     | 6.5948   | 0.7939    | 0.0248 |
| noctrex   | MXFP4\_MOE\_F16  | 20.55     | 6.5937   | 0.7614    | 0.0247 |

[^1]: Bartowski 的 Q4\_K\_M 比 Unsloth 的大 1GB
