🦥Unsloth Dynamic 2.0 GGUF

我们对 Dynamic 量化的一次重大升级！

我们很高兴地介绍 Unsloth 动态 v2.0 量化 —— 对我们之前量化方法的重大升级。此新方法优于领先的量化方法，并为以下方面设定了新的基准： Aider Polglot，5-shot MMLU 和 KL 散度。

这意味着您现在可以运行并微调量化的 LLM 同时尽可能保留准确性！您可以在大多数推理引擎上运行 2.0 GGUF，如 llama.cpp、LM Studio 等。

2026 年 2 月 27 日更新： Qwen3.5 已发布，我们修复了一些工具调用聊天模板的问题，并对每个 GGUF 在困惑度和 KL 散度上进行了基准测试。查看基准！

主要的优势是使用 Unsloth 包和量化文件在修复主要模型中的错误方面我们发挥了积极作用。我们与以下团队直接合作修复问题： Qwen3, Meta（Llama 4）, Mistral（Devstral）, Google（Gemma 1–3）和 Microsoft（Phi-3/4），贡献了提高准确性的修复。

2025 年 9 月 10 日更新：你们要求更严格的基准，所以这里是 Aider Polyglot 的结果！我们的动态 3-bit DeepSeek V3.1 GGUF 得分 75.6%，超过了许多全精度的 SOTA LLM。阅读更多。

您还可以查看 Benjamin Marie 为 LiveCodeBench v6、MMLU Pro 等进行的真实用例基准：

您可以看到尽管 Unsloth 的 GGUF 大约小 ~8GB，但其表现优于非 Unsloth 的量化文件。

下面有我们基准和评估的详细分析。

💡 动态 v2.0 有哪些新内容？

为 GGUFs + safetensors 重新设计的层选择： Unsloth 动态 2.0 现在以更智能、更广泛的方式有选择性地量化层。我们不再仅修改某些层，而是现在动态调整每个可能层的量化类型，且每层和每个模型的组合会不同。
当前选择的以及所有未来的 GGUF 上传将使用动态 2.0 和我们的新校准数据集。该数据集包含超过 >1.5M 标记（取决于模型）并由高质量、手工策划和清洗的数据组成 —— 大幅提升会话聊天性能。
此前，我们的动态量化（DeepSeek-R1 1.58-bit GGUF）仅对 MoE 架构有效。 动态 2.0 量化现在适用于所有模型（包括 MoE 和非 MoE）.
针对模型的专用量化： 每个模型现在使用定制的量化方案。例如，Gemma 3 中被量化的层与 Llama 4 中的层显著不同。
为最大化效率，尤其是在 Apple Silicon 和 ARM 设备上，我们现在还加入了 Q4_NL、Q5.1、Q5.0、Q4.1 和 Q4.0 格式。

为了确保准确的基准测试，我们构建了一个内部评估框架以匹配官方报告的 Llama 4 和 Gemma 3 的 5-shot MMLU 分数。这使得全精度与动态 v2.0、 QAT 和标准 imatrix GGUF 量化之间可以进行可比性的比较。

所有未来的 GGUF 上传将使用 Unsloth 动态 2.0，我们的动态 4-bit safetensor 量化在未来也将从中受益。

📊 为什么使用 KL 散度？

准确性并非全部展示了即使通过选择不必要的层来修剪层，仍会在“翻转”（flip）方面产生巨大差异。“翻转”定义为答案从错误变为正确或反之的变化。该论文表明，当我们修剪层或进行量化时，MMLU 可能不会下降，但那是因为一些错误答案可能已经“翻转”为正确。我们的目标是匹配原始模型，因此衡量“翻转”是一个良好的度量。

KL 散度 应该是 报告量化误差的黄金标准之一 根据论文《Accuracy is Not All You Need》。 使用困惑度是不正确的 因为输出 token 值可能相互抵消，所以我们必须使用 KLD 或更严格的基准，例如 Aider.

论文还表明，有趣的是 KL 散度与翻转高度相关，因此我们的目标是在尽量少增加量化磁盘空间的同时降低平均 KL 散度。

⚖️ 校准数据集过拟合

大多数框架使用维基百科文章的测试集报告困惑度和 KL 散度。然而，我们注意到使用与维基百科相关的校准数据集会导致量化过拟合并获得更低的困惑度分数。我们使用 Calibration_v3 和 Calibration_v5 数据集进行公平测试，这些数据集中包含一些 wikitext 数据及其他数据。 另外，instruct 模型有独特的聊天模板，仅使用纯文本的校准数据集对于 instruct 模型并不有效 （基础模型除外）。事实上大多数 imatrix GGUF 通常在校准时存在这些问题。因此，当 KL 散度基准也使用维基百科数据时，它们自然表现更好，因为模型本质上针对该领域进行了优化。

为确保公平且受控的评估，在对 KL 散度进行基准测试时，我们不会使用我们自己的校准数据集（该数据集针对聊天性能进行了优化）。相反，我们使用相同的标准维基百科数据集进行了测试，从而能够直接比较我们的动态 2.0 方法与基线 imatrix 方法的性能。

🔢 MMLU 复制之旅

复制 MMLU 5-shot 是场噩梦。我们无法复制包括 Llama 3.1 (8B) Instruct、Gemma 3 (12B) 等在内的许多模型的 MMLU 结果，原因是 细微的实现问题。例如 Llama 3.1 (8B) 应该获得约 ~68.2%，而使用不正确的实现可能只能达到 35% 的准确率。

使用简单的 MMLU 实现，Llama 3.1 (8B) Instruct 的 MMLU 5-shot 准确率为 67.8%。然而我们发现 Llama 将 "A" 与 "_A"（前面带空格的 A）标记为不同的 token id。如果我们同时考虑带空格和不带空格的 token，我们会得到 68.2%。 (+0.4%)
有趣的是，根据 Eleuther AI 的 LLM Harness Llama 3 还会在问题后追加 "The best answer is" ，以遵循 Llama 3 的原始 MMLU 基准。
还有许多其他细微的问题，因此为了在受控环境中对所有内容进行基准测试，我们通过直接研究并从头设计了自己的 MMLU 实现， github.com/hendrycks/test 并在多个模型上验证我们的结果并与报告的数值进行比较。

✨ Gemma 3 QAT 复制与基准

Gemma 团队发布了两个 Gemma 3 的 QAT（量化感知训练）版本：

Q4_0 GGUF - 通过公式将所有层量化为 Q4_0： w = q * block_scale 每个块有 32 个权重。详情见 llama.cpp 维基。
int4 版本 - 可能是 TorchAO int4 风格?

我们对所有 Q4_0 GGUF 版本进行了基准测试，并对 12B 模型进行了大量实验。我们看到 12B Q4_0 QAT 模型获得 67.07% ，而全 bfloat16 12B 版本在 5-shot MMLU 上获得 67.15%。这非常令人印象深刻！27B 模型也几乎达到了！

指标

12B

27B

MMLU 5 shot

26.12%

55.13%

67.07%（67.15% BF16）

70.64%（71.5% BF16）

磁盘空间

0.93GB

2.94GB

7.52GB

16.05GB

效率*

1.20

10.26

5.59

2.84

我们设计了一个新的 效率指标 它在考虑模型磁盘大小和 MMLU 5-shot 分数的同时计算模型的有用性：

\text{Efficiency} = \frac{\text{MMLU 5 shot score} - 25}{\text{Disk Space GB}}

我们必须 减去 25 因为 MMLU 有 4 个多项选择 —— A、B、C 或 D。假设我们做了一个仅随机选择答案的模型 —— 它会得到 25% 的准确率，并且磁盘空间只有几字节。但显然这不是一个有用的模型。

关于相对于基线模型的 KL 散度，下面的表格展示了改进。提醒一下，KL 散度越接近 0 越好（即 0 表示与全精度模型相同）

量化

基线 KLD

新 KLD

IQ1_S

1.035688

5.83

0.972932

6.06

IQ1_M

0.832252

6.33

0.800049

6.51

IQ2_XXS

0.535764

7.16

0.521039

7.31

IQ2_M

0.26554

8.84

0.258192

8.96

Q2_K_XL

0.229671

9.78

0.220937

9.95

Q3_K_XL

0.087845

12.51

0.080617

12.76

Q4_K_XL

0.024916

15.41

0.023701

15.64

如果我们绘制磁盘空间增加比例与 KL 散度变化比例的比值，我们可以看到更清晰的收益！我们的动态 2bit Q2_K_XL 在降低 KLD 上表现显著（大约 7.5%）。

Gemma 3（27B）的 MMLU 结果截表。见下文。

我们的动态 4bit 版本比 QAT 版本小 2GB，同时准确率额外提高了 +1%！
在效率方面，2bit Q2_K_XL 等表现非常出色！

量化

Unsloth

Unsloth + QAT

磁盘大小

效率

IQ1_M

48.10

47.23

6.51

3.42

IQ2_XXS

59.20

56.57

7.31

4.32

IQ2_M

66.47

64.47

8.96

4.40

Q2_K_XL

68.70

67.77

9.95

4.30

Q3_K_XL

70.87

69.50

12.76

3.49

Q4_K_XL

71.47

71.07

15.64

2.94

Google QAT

70.64

17.2

2.65

点击此处查看 Google 的完整 Gemma 3（27B）QAT 基准：

模型

Unsloth

Unsloth + QAT

磁盘大小

效率

IQ1_S

41.87

43.37

6.06

3.03

IQ1_M

48.10

47.23

6.51

3.42

IQ2_XXS

59.20

56.57

7.31

4.32

IQ2_M

66.47

64.47

8.96

4.40

Q2_K

68.50

67.60

9.78

4.35

Q2_K_XL

68.70

67.77

9.95

4.30

IQ3_XXS

68.27

67.07

10.07

4.18

Q3_K_M

70.70

69.77

12.51

3.58

Q3_K_XL

70.87

69.50

12.76

3.49

Q4_K_M

71.23

71.00

15.41

2.98

Q4_K_XL

71.47

71.07

15.64

2.94

Q5_K_M

71.77

71.23

17.95

2.58

Q6_K

71.87

71.60

20.64

2.26

Q8_0

71.60

71.53

26.74

1.74

Google QAT

70.64

17.2

2.65

🦙 Llama 4 错误修复与运行

我们还帮助并修复了几个 Llama 4 的 bug：

Llama 4 Scout 在其官方仓库中更改了 RoPE 缩放配置。我们帮助解决了 llama.cpp 中以启用此更改的问题，链接在此
Llama 4 的 QK Norm 的 epsilon 对于 Scout 和 Maverick 都应来自配置文件 —— 这意味着使用 1e-05 而不是 1e-06。我们帮助在 llama.cpp 和 transformers
中解决了这些问题。 Llama 4 团队和 vLLM 也独立修复了 QK Norm 在所有头之间共享的问题（不应如此），在此处
。MMLU Pro 的准确率从 68.58% 提升到 71.53%。 Wolfram Ravenwolf

展示了通过 llama.cpp 使用我们的 GGUF 相比第三方推理提供者能获得更高的准确率 —— 这很可能是上述问题的组合，也可能由于量化问题所致。

如我们的图表所示，我们的 4-bit 动态 QAT 量化在 5-shot MMLU 上提供了更好的性能，同时体积也更小。

运行 Llama 4 Scout：

例如要运行 Llama 4 Scout，首先克隆 llama.cpp：
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
    cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split

cp llama.cpp/build/bin/llama-* llama.cpp

然后下载我们为 Scout 提供的新动态 v2.0 量化：
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
    snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
)

allow_patterns = ["*IQ2_XXS*"],

现在开始推理吧！
    ./llama.cpp/llama-cli \
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -no-cnv \

上一页Text-to-Speech Fine-tuning 下一页Aider Polyglot Benchmarks

最后更新于12天前

这有帮助吗？

hashtag💡 动态 v2.0 有哪些新内容？

hashtag📊 为什么使用 KL 散度？

hashtag⚖️ 校准数据集过拟合

hashtag🔢 MMLU 复制之旅

hashtag✨ Gemma 3 QAT 复制与基准

hashtag🦙 Llama 4 错误修复与运行

hashtag如我们的图表所示，我们的 4-bit 动态 QAT 量化在 5-shot MMLU 上提供了更好的性能，同时体积也更小。

💡 动态 v2.0 有哪些新内容？

📊 为什么使用 KL 散度？

⚖️ 校准数据集过拟合

🔢 MMLU 复制之旅

✨ Gemma 3 QAT 复制与基准

🦙 Llama 4 错误修复与运行

如我们的图表所示，我们的 4-bit 动态 QAT 量化在 5-shot MMLU 上提供了更好的性能，同时体积也更小。