chart-fftQwen3.5 GGUF 基准测试

查看 Unsloth Dynamic GGUF 的表现,以及困惑度、KL 散度和 MXFP4 的分析。

我们更新了所有 Qwen3.5 Unsloth 动态 量化 成为 最先进 (SOTA) 在几乎所有位数上。我们进行了超过 150 次 KL 散度基准测试,总计 9TB 的 GGUF。我们上传了所有研究工件。

我们还修复了一个 工具调用 聊天 模板 问题 (影响所有量化上传器和类型,无论你在哪里使用或来自哪里).

circle-check
circle-info

想了解如何运行模型 + 硬件要求?阅读我们的 推理 指南.

99.9% KL 散度显示在帕累托前沿上达到 SOTA 针对 Unsloth 动态 Q4_K_XL, IQ3_XXS 等:

Qwen3.5-122B-A10B 基准测试
Qwen3.5-35B-A3B 基准测试
  • Imatrix 确实有助于降低 KLD 和 PPL,但代价是推理速度慢 5-10%。

  • 我们将我们的 GGUF 与许多其他提供者进行了测试

  • 对 ssm_out(Mamba 层)以及 ffn_down_exps 进行量化并不是一个好主意。

  • 从 所有 GGUF 量化中 退役 MXFP4 :Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除非是纯 MXFP4_MOE。

由 Benjamin Marie 进行的新 Qwen3.5-9B GGUF 基准测试

1) 有些张量对量化非常敏感

  • 我们提供了超过 9TB 的研究工件供社区在我们的页面上进一步调查, 实验 页面arrow-up-right。其中包含 KLD 指标和我们测试的全部 121 个配置。

  • 我们在每种张量类型上改变了位宽,并生成了下面针对 99.9% KLD 的最佳和最差帕累托前沿图。

  • 对于最适合量化的项,ffn_up_exps 和 ffn_gate_exps 通常可以量化到 3 位。ffn_down_exps 稍微更敏感一些。

  • 对于最不适合的项,ssm_out 会显著增加 KLD,且节省的磁盘空间微乎其微。例如,ssm_out 在 q2_k 时表现要差得多。 对任何 attn_* 进行量化特别敏感 对于混合架构,因此将它们保留为更高精度是有效的。

张量类型与 99.9% KL 散度下的位数关系

  • 我们绘制了所有量化级别相对于 99.9% KLD 的图,并按从最差 KLD 到最好排序。对 ffn_* 层进行过度量化不是一个好主意。

  • 然而, 有些位宽是合适的,尤其是 3 位。- 例如将 ffn_*(down、up、gate)保持在约 iq3_xxs 附近似乎是在磁盘空间和 99.9% KLD 变化之间的最佳折中。2 位会导致更多降级。

MXFP4 在许多张量上要差得多 - 在 attn_gate、attn_q、ssm_beta、ssm_alpha 上使用 MXFP4 并不是一个好主意,Q4_K 更好一些 - 另外 MXFP4 每个权重使用 4.25 位,而 Q4_K 每个权重使用 4.5 位。在二者之间选择时,使用 Q4_K 比 MXFP4 更好。

如你所见 MXFP4 异常偏高

2) Imatrix 效果很好

  • Imatrix 确实有助于以正确方式权衡量化过程。例如之前 ssm_out 在 2 位时表现非常差,但 imatrix 大幅降低了 99.9% KLD。

  • Imatrix 通常在较低位数上有帮助,并适用于所有量化器和位宽。

I 类量化(iq3_xxs、iq2_s 等)使推理变慢 5-10%,在效率方面它们确实更好,但存在权衡。

类型
pp512(≈)
tg128(≈)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) 困惑度与 KLD 可能具有误导性

困惑度和 KLD 可能具有误导性,因为它们高度受校准影响。大多数 GGUF 在 512 上下文窗口的 Wiki-test 上进行评估,因此如果 GGUF 的 imatrix 校准集包含类似维基百科和 512 上下文的样本(如大多数 GGUF 所做的),结果会发生很大变化。这就是为什么我们的 GGUF 有时显示更高的困惑度,因为我们的 imatrix 数据更倾向于使用长上下文聊天和工具调用示例。

Benjamin 最近的 MiniMax‑M2.5 分析arrow-up-right 展示了困惑度和 KLD 如何非常具有误导性的一个案例。Unsloth Dynamic IQ2_XXS 在真实世界评估(LiveCodeBench v6、MMLU Pro)上表现优于 AesSedai 的 IQ3_S,尽管它小 11GB。然而,AesSedai 的困惑度和 KLD 基准测试却给出相反的结论。(PPL:0.3552 vs 0.2441;KLD:9.0338 vs 8.2849 - 越低越好)。

KL 散度 - AesSedai
困惑度 - AesSedai

这种不匹配表明较低的困惑度或 KLD 不一定转化为更好的现实世界表现。图表还显示 UD‑Q4-K‑XL 在表现上优于其他 Q4 量化,同时体积约小 ~8GB。这并不意味着困惑度或 KLD 无用,因为它们提供了粗略信号。因此,今后我们将为每个量化发布困惑度和 KLD,以便社区有某种参考。

4) 2026 年 3 月 5 日 更新 - 更强的鲁棒性

我们进一步增强了 Qwen3.5 MoE 的量化方法以直接减少最大 KLD。通常使用的是 99.9%,但对于极端离群值,最大 KLD 可能有用。我们的新方法相较于 3 月 5 日之前的更新通常将最大 KLD 大幅降低。

量化
旧 GB
新 GB
旧 最大 KLD
新 最大 KLD

UD-Q2_K_XL

12.0

11.3

8.237

8.155

UD-Q3_K_XL

16.1

15.5

5.505

5.146

UD-Q4_K_XL

19.2

20.7 (+7.8%)

5.894

2.877 (-51%)

UD-Q5_K_XL

23.2

24.6 (+6%)

5.536

3.210 (-42%)

完整基准测试

量化器
量化级别
磁盘空间(GB)
困惑度(PPL)
KLD 99.9%
平均 KLD

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

最后更新于

这有帮助吗?