chart-fftQwen3.5 GGUF 基准

查看 Unsloth 动态 GGUF 的表现及在困惑度、KL 散度和 MXFP4 上的分析。

我们更新了 Qwen3.5-35B Unsloth 动态量化 成为最先进(SOTA) 在几乎所有位数上。我们进行了超过 150 次 KL 散度基准测试,总共 9TB 的 GGUFs。我们上传了所有研究产出。我们还修复了一个 工具调用 聊天模板 错误 (影响所有量化上传器)

  • Qwen3.5-35B-A3B 的 GGUFs 已更新以使用新修复(112B、27B 尚在转换中,更新后请重新下载)

  • 我们测试了 Bartowski、Ubergram、AesSedai、Noctrex 以及我们的新动态 GGUFs

  • 99.9% KL 散度显示为最先进(SOTA) 在帕累托前沿上对于 UD-Q4_K_XL、IQ3_XXS 等表现优异。

  • 弃用 MXFP4 从所有 GGUF 量化中:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除非是纯 MXFP4_MOE。

困惑度基准 - 越低越好
困惑度基准 - 越低越好
  • Imatrix 确实有助于降低 KLD 和 PPL,但代价是推理速度降低 5-10%。

  • 对 ssm_out(Mamba 层)进行量化不是好主意,ffn_down_exps 也是如此。

1) 一些张量对量化非常敏感

  • 我们提供了超过 9TB 的研究产出,供社区在我们的 实验页面arrow-up-right上进一步调查。它包括 KLD 指标和我们测试的全部 121 个配置。

  • 我们在每种张量类型上改变了位宽,并生成了下面相对于 99.9% KLD 的最佳和最差帕累托前沿图。

  • 对于最适合量化的项,ffn_up_exps 和 ffn_gate_exps 通常可以量化到 3 位。ffn_down_exps 稍微更敏感。

  • 对于最差的项,ssm_out 会显著增加 KLD,而节省的磁盘空间极其微小。例如,ssm_out 在 q2_k 时表现会明显更差。 对任何 attn_* 进行量化尤其敏感 对于混合架构,因此将它们保留为更高精度效果良好。

张量类型与位数在 99.9% KL 散度上的关系

  • 我们绘制了所有量化级别相对于 99.9% KLD 的图,并按从最差 KLD 到最好排序。将 ffn_* 层量化得过低不是好主意。

  • 然而, 有些位宽是好的,尤其是 3 位。- 例如将 ffn_*(down、up、gate)保持在大约 iq3_xxs 附近似乎是在磁盘空间和 99.9% KLD 变化之间的最佳折中。2 位会导致更大的退化。

MXFP4 在许多张量上要差得多 - 在 attn_gate、attn_q、ssm_beta、ssm_alpha 上使用 MXFP4 不是好主意,Q4_K 更好——另外 MXFP4 每个权重使用 4.25 位,而 Q4_K 使用每权重 4.5 位。在两者之间选择时,使用 Q4_K 比 MXFP4 更好。

如你所见 MXFP4 畸高

2) Imatrix 表现非常好

  • Imatrix 确实有助于以正确方式加权量化过程。例如之前 ssm_out 在 2 位时非常糟糕,然而 imatrix 大幅降低了 99.9% KLD。

  • Imatrix 通常对较低位数有帮助,并适用于所有量化器和位宽。

I 系列量化(iq3_xxs、iq2_s 等)使推理慢 5-10%,它们在效率方面确实更好,但存在权衡。

类型
pp512(≈)
tg128(≈)

mxfp4

1978.69

90.67

q4_k

1976.44

90.38

q3_k

1972.61

91.36

q6_k

1964.55

90.50

q2_k

1964.20

90.77

q8_0

1964.17

90.33

q5_k

1947.74

90.72

iq3_xxs

2030.94

85.68

iq2_xxs

1997.64

85.79

iq3_s

1990.12

84.37

iq2_xs

1967.85

85.19

iq2_s

1952.50

85.04

3) 困惑度与 KLD 可能具有误导性

困惑度和 KLD 可能具有误导性,因为它们受校准影响很大。大多数 GGUF 在维基测试(512 上下文窗口)上进行评估,因此如果 GGUF 的 imatrix 校准集包含类似维基的 512 上下文样本(像大多数 GGUF 那样),结果会有很大变化。这就是为什么我们的 GGUF 有时显示更高的困惑度,因为我们的 imatrix 数据更多使用长上下文聊天和工具调用示例。

Benjamin 最近的 MiniMax‑M2.5 分析arrow-up-right 展示了困惑度和 KLD 如何可能非常具有误导性。Unsloth 动态 IQ2_XXS 在真实世界评估(LiveCodeBench v6,MMLU Pro)中的表现优于 AesSedai 的 IQ3_S,尽管它小 11GB。然而,AesSedai 的困惑度和 KLD 基准测试却显示相反。(PPL:0.3552 vs 0.2441;KLD:9.0338 vs 8.2849 - 越低越好)。

KL 散度 - AesSedai
困惑度 - AesSedai

这种不匹配表明更低的困惑度或 KLD 并不一定转化为更好的真实世界表现。图表还显示 UD‑Q4‑K‑XL 在表现上优于其他 Q4 量化,同时小约 8GB。这并不意味着困惑度或 KLD 无用,它们提供了大致的信号。因此,未来我们将为每个量化发布困惑度和 KLD,以便社区获得某种参考。

完整基准

量化器
量化级别
磁盘空间(GB)
PPL
KLD 99.9%
平均 KLD

AesSedai

IQ3_S

12.65

6.9152

1.8669

0.0613

AesSedai

IQ4_XS

16.4

6.6447

0.8067

0.0235

AesSedai

Q4_K_M

20.62

6.5665

0.3171

0.0096

AesSedai

Q5_K_M

24.45

6.5356

0.21

0.0058

Ubergarm

Q4_0

19.79

6.5784

0.4829

0.0142

Unsloth

IQ2_XXS

9.09

7.716

4.2221

0.1846

Unsloth

Q2_K_XL

12.04

7.0438

2.9092

0.097

Unsloth

IQ3_XXS

13.12

6.7829

1.5296

0.0501

Unsloth

IQ3_S

14.13

6.7715

1.4193

0.0457

Unsloth

Q3_K_M

15.54

6.732

0.9726

0.0324

Unsloth

Q3_K_XL

16.06

6.7245

0.9539

0.0308

Unsloth

MXFP4_MOE

18.17

6.6

0.7789

0.0272

Unsloth

Q4_K_M

18.49

6.6053

0.5478

0.0192

Unsloth

Q4_K_L

18.82

6.5905

0.4828

0.015

Unsloth

Q4_K_XL

19.17

6.5918

0.4097

0.0137

Unsloth

Q5_K_XL

23.22

6.5489

0.236

0.0069

Unsloth

Q6_K_S

26.56

6.5456

0.2226

0.0065

Unsloth

Q6_K_XL

28.22

6.5392

0.1437

0.0041

Unsloth

Q8_K_XL

36.04

6.5352

0.1033

0.0026

bartowski

Qwen_IQ2_XXS

8.15

9.3427

6.0607

0.3457

bartowski

Qwen_Q2_K_L

11.98

7.5504

3.8095

0.1559

bartowski

Qwen_IQ3_XXS

12.94

7.0938

2.1563

0.0851

bartowski

Qwen_Q3_K_M

14.95

6.772

1.7779

0.0585

bartowski

Qwen_Q3_K_XL

15.97

6.8245

1.7516

0.0627

bartowski

Qwen_IQ4_XS

17.42

6.6234

0.7265

0.0234

bartowski

Qwen_Q4_K_M

19.77

6.6097

0.5771

0.0182

bartowski

Qwen_Q5_K_M

23.11

6.5828

0.3549

0.0106

noctrex

MXFP4_MOE_BF16

20.55

6.5948

0.7939

0.0248

noctrex

MXFP4_MOE_F16

20.55

6.5937

0.7614

0.0247

最后更新于

这有帮助吗?