Qwen3.5 GGUF 基准测试
查看 Unsloth Dynamic GGUF 的表现,以及困惑度、KL 散度和 MXFP4 的分析。
我们更新了所有 Qwen3.5 Unsloth 动态 量化 成为 最先进 (SOTA) 在几乎所有位数上。我们进行了超过 150 次 KL 散度基准测试,总计 9TB 的 GGUF。我们上传了所有研究工件。
我们还修复了一个 工具调用 聊天 模板 问题 (影响所有量化上传器和类型,无论你在哪里使用或来自哪里).
3 月 5 日 更新: 重新下载 Qwen3.5-35B, 27B, 122B 和 397B。
所有 GGUF 现已使用 改进的量化 算法 更新。
全部使用我们的 新 imatrix 数据。在聊天、编码、长上下文和工具调用的用例中可见一些改进。
新基准测试 Qwen3.5-122B-A10B 和 35-A3B 的新结果现已发布!
想了解如何运行模型 + 硬件要求?阅读我们的 推理 指南.
99.9% KL 散度显示在帕累托前沿上达到 SOTA 针对 Unsloth 动态 Q4_K_XL, IQ3_XXS 等:


Imatrix 确实有助于降低 KLD 和 PPL,但代价是推理速度慢 5-10%。
我们将我们的 GGUF 与许多其他提供者进行了测试
对 ssm_out(Mamba 层)以及 ffn_down_exps 进行量化并不是一个好主意。
从 所有 GGUF 量化中 退役 MXFP4 :Q2_K_XL、Q3_K_XL 和 Q4_K_XL,除非是纯 MXFP4_MOE。

1) 有些张量对量化非常敏感
我们提供了超过 9TB 的研究工件供社区在我们的页面上进一步调查, 实验 页面。其中包含 KLD 指标和我们测试的全部 121 个配置。
我们在每种张量类型上改变了位宽,并生成了下面针对 99.9% KLD 的最佳和最差帕累托前沿图。
对于最适合量化的项,ffn_up_exps 和 ffn_gate_exps 通常可以量化到 3 位。ffn_down_exps 稍微更敏感一些。
对于最不适合的项,ssm_out 会显著增加 KLD,且节省的磁盘空间微乎其微。例如,ssm_out 在 q2_k 时表现要差得多。 对任何 attn_* 进行量化特别敏感 对于混合架构,因此将它们保留为更高精度是有效的。

张量类型与 99.9% KL 散度下的位数关系
我们绘制了所有量化级别相对于 99.9% KLD 的图,并按从最差 KLD 到最好排序。对 ffn_* 层进行过度量化不是一个好主意。
然而, 有些位宽是合适的,尤其是 3 位。- 例如将 ffn_*(down、up、gate)保持在约 iq3_xxs 附近似乎是在磁盘空间和 99.9% KLD 变化之间的最佳折中。2 位会导致更多降级。

MXFP4 在许多张量上要差得多 - 在 attn_gate、attn_q、ssm_beta、ssm_alpha 上使用 MXFP4 并不是一个好主意,Q4_K 更好一些 - 另外 MXFP4 每个权重使用 4.25 位,而 Q4_K 每个权重使用 4.5 位。在二者之间选择时,使用 Q4_K 比 MXFP4 更好。


2) Imatrix 效果很好
Imatrix 确实有助于以正确方式权衡量化过程。例如之前 ssm_out 在 2 位时表现非常差,但 imatrix 大幅降低了 99.9% KLD。
Imatrix 通常在较低位数上有帮助,并适用于所有量化器和位宽。

I 类量化(iq3_xxs、iq2_s 等)使推理变慢 5-10%,在效率方面它们确实更好,但存在权衡。
mxfp4
1978.69
90.67
q4_k
1976.44
90.38
q3_k
1972.61
91.36
q6_k
1964.55
90.50
q2_k
1964.20
90.77
q8_0
1964.17
90.33
q5_k
1947.74
90.72
iq3_xxs
2030.94
85.68
iq2_xxs
1997.64
85.79
iq3_s
1990.12
84.37
iq2_xs
1967.85
85.19
iq2_s
1952.50
85.04
3) 困惑度与 KLD 可能具有误导性
困惑度和 KLD 可能具有误导性,因为它们高度受校准影响。大多数 GGUF 在 512 上下文窗口的 Wiki-test 上进行评估,因此如果 GGUF 的 imatrix 校准集包含类似维基百科和 512 上下文的样本(如大多数 GGUF 所做的),结果会发生很大变化。这就是为什么我们的 GGUF 有时显示更高的困惑度,因为我们的 imatrix 数据更倾向于使用长上下文聊天和工具调用示例。

Benjamin 最近的 MiniMax‑M2.5 分析 展示了困惑度和 KLD 如何非常具有误导性的一个案例。Unsloth Dynamic IQ2_XXS 在真实世界评估(LiveCodeBench v6、MMLU Pro)上表现优于 AesSedai 的 IQ3_S,尽管它小 11GB。然而,AesSedai 的困惑度和 KLD 基准测试却给出相反的结论。(PPL:0.3552 vs 0.2441;KLD:9.0338 vs 8.2849 - 越低越好)。


这种不匹配表明较低的困惑度或 KLD 不一定转化为更好的现实世界表现。图表还显示 UD‑Q4-K‑XL 在表现上优于其他 Q4 量化,同时体积约小 ~8GB。这并不意味着困惑度或 KLD 无用,因为它们提供了粗略信号。因此,今后我们将为每个量化发布困惑度和 KLD,以便社区有某种参考。
4) 2026 年 3 月 5 日 更新 - 更强的鲁棒性
我们进一步增强了 Qwen3.5 MoE 的量化方法以直接减少最大 KLD。通常使用的是 99.9%,但对于极端离群值,最大 KLD 可能有用。我们的新方法相较于 3 月 5 日之前的更新通常将最大 KLD 大幅降低。

UD-Q2_K_XL
12.0
11.3
8.237
8.155
UD-Q3_K_XL
16.1
15.5
5.505
5.146
UD-Q4_K_XL
19.2
20.7 (+7.8%)
5.894
2.877 (-51%)
UD-Q5_K_XL
23.2
24.6 (+6%)
5.536
3.210 (-42%)
完整基准测试
AesSedai
IQ3_S
12.65
6.9152
1.8669
0.0613
AesSedai
IQ4_XS
16.4
6.6447
0.8067
0.0235
AesSedai
Q4_K_M
20.62
6.5665
0.3171
0.0096
AesSedai
Q5_K_M
24.45
6.5356
0.21
0.0058
Ubergarm
Q4_0
19.79
6.5784
0.4829
0.0142
Unsloth
IQ2_XXS
9.09
7.716
4.2221
0.1846
Unsloth
Q2_K_XL
12.04
7.0438
2.9092
0.097
Unsloth
IQ3_XXS
13.12
6.7829
1.5296
0.0501
Unsloth
IQ3_S
14.13
6.7715
1.4193
0.0457
Unsloth
Q3_K_M
15.54
6.732
0.9726
0.0324
Unsloth
Q3_K_XL
16.06
6.7245
0.9539
0.0308
Unsloth
MXFP4_MOE
18.17
6.6
0.7789
0.0272
Unsloth
Q4_K_M
18.49
6.6053
0.5478
0.0192
Unsloth
Q4_K_L
18.82
6.5905
0.4828
0.015
Unsloth
Q4_K_XL
19.17
6.5918
0.4097
0.0137
Unsloth
Q5_K_XL
23.22
6.5489
0.236
0.0069
Unsloth
Q6_K_S
26.56
6.5456
0.2226
0.0065
Unsloth
Q6_K_XL
28.22
6.5392
0.1437
0.0041
Unsloth
Q8_K_XL
36.04
6.5352
0.1033
0.0026
bartowski
Qwen_IQ2_XXS
8.15
9.3427
6.0607
0.3457
bartowski
Qwen_Q2_K_L
11.98
7.5504
3.8095
0.1559
bartowski
Qwen_IQ3_XXS
12.94
7.0938
2.1563
0.0851
bartowski
Qwen_Q3_K_M
14.95
6.772
1.7779
0.0585
bartowski
Qwen_Q3_K_XL
15.97
6.8245
1.7516
0.0627
bartowski
Qwen_IQ4_XS
17.42
6.6234
0.7265
0.0234
bartowski
Qwen_Q4_K_M
19.77
6.6097
0.5771
0.0182
bartowski
Qwen_Q5_K_M
23.11
6.5828
0.3549
0.0106
noctrex
MXFP4_MOE_BF16
20.55
6.5948
0.7939
0.0248
noctrex
MXFP4_MOE_F16
20.55
6.5937
0.7614
0.0247
最后更新于
这有帮助吗?

