Qwen3.5 GGUF 基准
查看 Unsloth 动态 GGUF 的表现及在困惑度、KL 散度和 MXFP4 上的分析。
我们更新了 Qwen3.5-35B Unsloth 动态量化 成为最先进(SOTA) 在几乎所有位数上。我们进行了超过 150 次 KL 散度基准测试,总共 9TB 的 GGUFs。我们上传了所有研究产出。我们还修复了一个 工具调用 聊天模板 错误 (影响所有量化上传器)
Qwen3.5-35B-A3B 的 GGUFs 已更新以使用新修复(112B、27B 尚在转换中,更新后请重新下载)
我们测试了 Bartowski、Ubergram、AesSedai、Noctrex 以及我们的新动态 GGUFs
99.9% KL 散度显示为最先进(SOTA) 在帕累托前沿上对于 UD-Q4_K_XL、IQ3_XXS 等表现优异。
弃用 MXFP4 从所有 GGUF 量化中:Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除非是纯 MXFP4_MOE。


Imatrix 确实有助于降低 KLD 和 PPL,但代价是推理速度降低 5-10%。
对 ssm_out(Mamba 层)进行量化不是好主意,ffn_down_exps 也是如此。
1) 一些张量对量化非常敏感
我们提供了超过 9TB 的研究产出,供社区在我们的 实验页面上进一步调查。它包括 KLD 指标和我们测试的全部 121 个配置。
我们在每种张量类型上改变了位宽,并生成了下面相对于 99.9% KLD 的最佳和最差帕累托前沿图。
对于最适合量化的项,ffn_up_exps 和 ffn_gate_exps 通常可以量化到 3 位。ffn_down_exps 稍微更敏感。
对于最差的项,ssm_out 会显著增加 KLD,而节省的磁盘空间极其微小。例如,ssm_out 在 q2_k 时表现会明显更差。 对任何 attn_* 进行量化尤其敏感 对于混合架构,因此将它们保留为更高精度效果良好。

张量类型与位数在 99.9% KL 散度上的关系
我们绘制了所有量化级别相对于 99.9% KLD 的图,并按从最差 KLD 到最好排序。将 ffn_* 层量化得过低不是好主意。
然而, 有些位宽是好的,尤其是 3 位。- 例如将 ffn_*(down、up、gate)保持在大约 iq3_xxs 附近似乎是在磁盘空间和 99.9% KLD 变化之间的最佳折中。2 位会导致更大的退化。

MXFP4 在许多张量上要差得多 - 在 attn_gate、attn_q、ssm_beta、ssm_alpha 上使用 MXFP4 不是好主意,Q4_K 更好——另外 MXFP4 每个权重使用 4.25 位,而 Q4_K 使用每权重 4.5 位。在两者之间选择时,使用 Q4_K 比 MXFP4 更好。


2) Imatrix 表现非常好
Imatrix 确实有助于以正确方式加权量化过程。例如之前 ssm_out 在 2 位时非常糟糕,然而 imatrix 大幅降低了 99.9% KLD。
Imatrix 通常对较低位数有帮助,并适用于所有量化器和位宽。

I 系列量化(iq3_xxs、iq2_s 等)使推理慢 5-10%,它们在效率方面确实更好,但存在权衡。
mxfp4
1978.69
90.67
q4_k
1976.44
90.38
q3_k
1972.61
91.36
q6_k
1964.55
90.50
q2_k
1964.20
90.77
q8_0
1964.17
90.33
q5_k
1947.74
90.72
iq3_xxs
2030.94
85.68
iq2_xxs
1997.64
85.79
iq3_s
1990.12
84.37
iq2_xs
1967.85
85.19
iq2_s
1952.50
85.04
3) 困惑度与 KLD 可能具有误导性
困惑度和 KLD 可能具有误导性,因为它们受校准影响很大。大多数 GGUF 在维基测试(512 上下文窗口)上进行评估,因此如果 GGUF 的 imatrix 校准集包含类似维基的 512 上下文样本(像大多数 GGUF 那样),结果会有很大变化。这就是为什么我们的 GGUF 有时显示更高的困惑度,因为我们的 imatrix 数据更多使用长上下文聊天和工具调用示例。

Benjamin 最近的 MiniMax‑M2.5 分析 展示了困惑度和 KLD 如何可能非常具有误导性。Unsloth 动态 IQ2_XXS 在真实世界评估(LiveCodeBench v6,MMLU Pro)中的表现优于 AesSedai 的 IQ3_S,尽管它小 11GB。然而,AesSedai 的困惑度和 KLD 基准测试却显示相反。(PPL:0.3552 vs 0.2441;KLD:9.0338 vs 8.2849 - 越低越好)。


这种不匹配表明更低的困惑度或 KLD 并不一定转化为更好的真实世界表现。图表还显示 UD‑Q4‑K‑XL 在表现上优于其他 Q4 量化,同时小约 8GB。这并不意味着困惑度或 KLD 无用,它们提供了大致的信号。因此,未来我们将为每个量化发布困惑度和 KLD,以便社区获得某种参考。
完整基准
AesSedai
IQ3_S
12.65
6.9152
1.8669
0.0613
AesSedai
IQ4_XS
16.4
6.6447
0.8067
0.0235
AesSedai
Q4_K_M
20.62
6.5665
0.3171
0.0096
AesSedai
Q5_K_M
24.45
6.5356
0.21
0.0058
Ubergarm
Q4_0
19.79
6.5784
0.4829
0.0142
Unsloth
IQ2_XXS
9.09
7.716
4.2221
0.1846
Unsloth
Q2_K_XL
12.04
7.0438
2.9092
0.097
Unsloth
IQ3_XXS
13.12
6.7829
1.5296
0.0501
Unsloth
IQ3_S
14.13
6.7715
1.4193
0.0457
Unsloth
Q3_K_M
15.54
6.732
0.9726
0.0324
Unsloth
Q3_K_XL
16.06
6.7245
0.9539
0.0308
Unsloth
MXFP4_MOE
18.17
6.6
0.7789
0.0272
Unsloth
Q4_K_M
18.49
6.6053
0.5478
0.0192
Unsloth
Q4_K_L
18.82
6.5905
0.4828
0.015
Unsloth
Q4_K_XL
19.17
6.5918
0.4097
0.0137
Unsloth
Q5_K_XL
23.22
6.5489
0.236
0.0069
Unsloth
Q6_K_S
26.56
6.5456
0.2226
0.0065
Unsloth
Q6_K_XL
28.22
6.5392
0.1437
0.0041
Unsloth
Q8_K_XL
36.04
6.5352
0.1033
0.0026
bartowski
Qwen_IQ2_XXS
8.15
9.3427
6.0607
0.3457
bartowski
Qwen_Q2_K_L
11.98
7.5504
3.8095
0.1559
bartowski
Qwen_IQ3_XXS
12.94
7.0938
2.1563
0.0851
bartowski
Qwen_Q3_K_M
14.95
6.772
1.7779
0.0585
bartowski
Qwen_Q3_K_XL
15.97
6.8245
1.7516
0.0627
bartowski
Qwen_IQ4_XS
17.42
6.6234
0.7265
0.0234
bartowski
Qwen_Q4_K_M
19.77
6.6097
0.5771
0.0182
bartowski
Qwen_Q5_K_M
23.11
6.5828
0.3549
0.0106
noctrex
MXFP4_MOE_BF16
20.55
6.5948
0.7939
0.0248
noctrex
MXFP4_MOE_F16
20.55
6.5937
0.7614
0.0247
最后更新于
这有帮助吗?

