🦥Aider Polyglot 上の Unsloth Dynamic GGUF

Aider Polyglot ベンチマークでの Unsloth Dynamic GGUF の性能

Unsloth Dynamic GGUFがどのようにして、のようなLLMを量子化できるかを紹介できることを嬉しく思います。 DeepSeek-V3.1 （671B）をわずか 1ビット または 3ビットにまで縮小し、それでもGPT-4.5やGPT-4.1のような最先端モデルを上回ることができることを示します。 GPT-4.5、GPT-4.1 （2025年4月）および Claude-4-Opus （2025年5月）。

以前に、私たちは実証しました Unsloth Dynamic GGUFが、5ショットのMMLUやKLダイバージェンスで他の量子化手法を上回る方法を。今回は、独立した第三者評価での性能を、ベンチマークを用いて紹介します。 Aider Polyglot ベンチマーク。

⭐主な結果

（チャンクが少ない） 1ビット Unsloth Dynamic GGUFは DeepSeek-V3.1 を次のように縮小します： 671GB → 192GB（サイズ -75%） そしてノーシンキングモードは、GPT-4.1（2025年4月）、GPT-4.5、および DeepSeek-V3-0324 を大幅に上回ります。
3ビット Unsloth DeepSeek-V3.1（Thinking）GGUF：Claude-4-Opus-20250514（Thinking）を上回ります。
5ビット Unsloth DeepSeek-V3.1（非Thinking）GGUF：Claude-4-Opus-20250514（非Thinking）と同等の性能を示します。
Unsloth Dynamic GGUFは、他の非Unsloth Dynamicのimatrix GGUFよりも一貫して高い性能を発揮します
他の非Unslothの1ビットおよび2ビットのDeepSeek-V3.1量子化や、選択的レイヤー量子化を伴わない標準的な1ビット量子化は、読み込みに失敗したり、意味不明でループする出力を生成したりしました。これは、Unsloth Dynamic GGUFが精度を大きく維持できる一方で、他の手法はそもそも機能しないことを強調しています。

なぜこの Aider Polyglot ベンチマークなのか？ Aiderは、LLMが文章を書く、コードを書く、指示に従う、そして人間の介入なしに変更を適用する能力を総合的に測る、最も包括的な指標の一つであり、実世界での利用にとって最も難しく価値の高いベンチマークの一つです。

その 主要な利点 Unslothパッケージとモデルを使用することの利点の一つは、我々が積極的に関与していることです： 重大なバグの修正 主要モデルのバグ修正において積極的に関与しています。私たちは以下のチームと直接協力して、 Qwen3, Meta（Llama 4）, Mistral（Devstral）, Google（Gemma 1–3）および Microsoft（Phi-3/4）などに対して、精度を大幅に向上させる重要な修正を提供してきました。

🦥Unsloth Dynamic 量子化

Dynamic 1ビットは重要なレイヤーを8または16ビットにし、重要でないレイヤーを1、2、3、4、5、または6ビットにします。

2024年11月に、私たちの 4ビット Dynamic 量子化は、QLoRAファインチューニングとモデル精度を選択的なレイヤー量子化によって大部分復元できることを示しました。 レイヤーを選択的に量子化するだけで。その後、私たちは DeepSeek-R1のアーキテクチャを研究し、同様の手法を適用しました。いくつかのレイヤーを1ビットまで下げ、重要なレイヤーをより高いビット（6、8ビット）に量子化しました。このアプローチは急速に人気を集め、特にMoEモデルに対して非常に有効であり、MoE量子化の事実上の標準となっています。

私たちのDynamic GGUFは、私たちの imatrix キャリブレーションデータセットと組み合わせるとさらに効果的です。これはチャットとコーディングの性能を目的に設計されています。これらすべてにより、品質を壊滅的に失うことなく極端なLLM圧縮が可能になりました。

例えばQwen2-VL-2B-Instructでは、すべてのレイヤーを単純に4ビットに量子化すると、下の画像を理解できなくなります。これは列車であって海岸の風景ではありません！

私たちはまた動的ベンチマークを以下で示しました： https://docs.unsloth.ai/basics/unsloth-dynamic-2.0-ggufs Gemma 3とLlama 4 Scoutに関して、我々の手法がいかに効果的かを示しています：

⚙️ベンチマーク設定

DeepSeek-V3.1の実験では、異なるビット数の Unsloth Dynamic GGUF を次と比較しました：

フルプレシジョンの非量子化LLM （GPT 4.5、4.1、Claude-4-Opus、DeepSeek-V3-0324などを含む）
他の ダイナミック imatrix V3.1 GGUF
セミ-ダイナミック （一部の選択的レイヤー量子化を含む）imatrix V3.1 GGUF をアブレーション目的で 使用しました。.

ベンチマーク実験は主に David Sluys （neolithic5452、 Aider Discord にて）によって行われました。彼はAiderのPolyglot評価に信頼されるコミュニティ貢献者です。テストは約3回実行して中央値を平均し、慣例としてPass-2精度を報告しています。AiderのDiscordには再現可能なベンチマークコードスニペットがいくつかあります。

推論モデルのAiderベンチマークを展開する

モデル

精度

GPT-5

86.7

Gemini 2.5 Pro（6月）

83.1

76.9

DeepSeek V3.1

76.1

（3ビット）DeepSeek V3.1 Unsloth

75.6

Claude-4-Opus（5月）

o4-mini（High）

DeepSeek R1 0528

71.4

（2ビット）DeepSeek V3.1 Unsloth

66.7

Claude-3.7-Sonnet（2月）

64.9

（1ビット）DeepSeek V3.1 Unsloth

57.8

DeepSeek R1

56.9

非推論モデルのAiderベンチマークを展開する

モデル

精度

DeepSeek V3.1

71.6

Claude-4-Opus（5月）

70.7

（5ビット）DeepSeek V3.1 Unsloth

70.7

（4ビット）DeepSeek V3.1 Unsloth

69.7

（3ビット）DeepSeek V3.1 Unsloth

68.4

（2ビット）DeepSeek V3.1 Unsloth

65.8

Qwen3 235B A22B

59.6

Kimi K2

59.1

（1ビット）DeepSeek V3.1 Unsloth

55.7

DeepSeek V3-0324

55.1

GPT-4.1（2025年4月）

52.4

ChatGPT 4o（2025年3月）

45.3

GPT-4.5

44.9

DeepSeek V3.1 には推論モードと非推論モードの両方があり、両方をテストしています。非推論モードでは、我々のダイナミック量子化の性能傾向が明確に見られます。ダイナミック5ビットはAider Pass-2で70.7%を達成し、一方ダイナミック1ビットは55.7%を達成します。サイズと精度の観点では、3ビットと4ビットが非常に強力です！

🎇他の量子化との比較

コミュニティの他のダイナミック imatrix GGUFに対してもAider Polyglotベンチマークを実行し、我々のものと比較しました。公平な 比較を行うために次のことを行います：

Unslothの各量子化と類似のファイルサイズおよびビットタイプを選択します。
我々の 修正済みチャットテンプレート を使用します。コミュニティの量子化がベンチマークを実行できない場合に備えてです。我々は一部のコミュニティ量子化が {"code":500,"message":"split method must have between 1 and 1 positional arguments and between 0 and 0 keyword arguments at row 3, column 1908"}というエラーを出すことを見つけ、それは我々の修正済みチャットテンプレートを使うことで修正されます。

同じモデルサイズと量子化タイプで比較すると、Unslothのダイナミック量子化はコミュニティの他の量子化と比べて著しく優れているのが見られます！

他の量子化との生の数値データ比較を展開する

量子化

量子化サイズ（GB）

Unsloth 精度 %

比較対象精度 %

IQ2_XXS

164

43.6

TQ1_0

170

50.7

IQ1_M

206

55.7

IQ2_M

215

56.6

IQ2_XXS

225

61.2

IQ2_M

235

64.3

Q2_K_L

239

64.0

Q2_K_XL

255

65.8

IQ3_XXS

268

65.6

IQ3_XXS

279

66.8

Q3_K_S

293

65.2

Q3_K_XL

300

68.4

IQ4_XS

357

69.2

IQ4_XS

360

66.3

Q4_K_XL

387

69.7

Q4_K_M

405

69.7

Q4_K_M

409

67.7

Q5_K_M

478

68.9

Q5_K_XL

484

70.7

🍰ダイナミック量子化のアブレーション

我々は、キャリブレーションデータセットとダイナミック量子化の手法が実際に機能するかを確認するためにいくつかのアブレーションも行いました。Unslothのダイナミック手法のコツは、 重要なレイヤーをより高いビットに量子化すること （例えば8ビット）であり、一方で 重要でないレイヤーはより低いビット（例えば2ビット）に残すことです。.

我々の手法をテストするために、特定のテンソルを4ビットなどの低精度にしておく場合と高精度にしておく場合を比較します。例えば以下では、 attn_k_b テンソルを4ビット（セミダイナミック）対8ビット（現在のUnsloth）にしており、量子化サイズをわずか約100MB（<0.1%）増やすだけで、精度が劇的に向上します！

attn_k_b そしてDeepSeek V3.1の他のテンソルは量子化に対して非常に重要／センシティブであり、精度を維持するためにより高い精度にしておくべきです！

🐛チャットテンプレートのバグ修正

DeepSeek-V3.1量子化のテスト中に、いくつかの低ビット量子化が適切に <think> </think> を囲んでおらず、奇妙なフォーマットをしているのを発見しました。これにより一部のコミュニティ量子化は低ビットで動作せず、不公平な比較を引き起こしました。llama.cppがminja（jinjaの簡易版）を使用していることにより、 .split に位置引数を受け入れないことが分かりました。そのため以下を変更する必要がありました：

{%- set content = content.split("</think>", 1)[1] -%}

を次のように：

{%- set splitted = content.split("</think>") -%}
{%- set content = splitted[1:] | join("</think>") -%}

詳細についてはこここれが我々の修正済みチャットテンプレート用、またはここ生のjinjaファイル用です。

📊パスレート1

Aiderは主にパスレート2で報告されます。私たちは同じサイズのコミュニティ量子化と比較するためにパスレート1も報告します。特に2ビット未満や4ビットより大きい場合において、我々のダイナミック量子化は同等のサイズの他のコミュニティ量子化よりもはるかに良い結果を示します。3ビットと4ビットは同様に良好に機能します。

💻DeepSeek V3.1 ダイナミック量子化を実行する

当社の DeepSeek V3.1 ガイドにアクセスするか、ダイナミック2ビット版を素早く入手するには、次を実行してください：

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

そして直接重みをダウンロードするには、次を使用します： llama.cpp 最適な推奨パラメータ（温度、チャットテンプレートなど）も既に設定しています：

export LLAMA_CACHE="unsloth/DeepSeek-V3.1-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/DeepSeek-V3.1-GGUF:Q2_K_XL \
    --jinja \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --top_p 0.95 \
    --min_p 0.01 \
    --ctx-size 8192 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

前へDynamic 2.0 GGUFs 次へビジョンファインチューニング

最終更新 2 か月前

役に立ちましたか？

hashtag⭐主な結果

hashtag🦥Unsloth Dynamic 量子化

hashtag⚙️ベンチマーク設定

hashtag🎇他の量子化との比較

hashtag🍰ダイナミック量子化のアブレーション

hashtag🐛チャットテンプレートのバグ修正

hashtag📊パスレート1

hashtag💻DeepSeek V3.1 ダイナミック量子化を実行する

⭐主な結果

🦥Unsloth Dynamic 量子化

⚙️ベンチマーク設定

🎇他の量子化との比較

🍰ダイナミック量子化のアブレーション

🐛チャットテンプレートのバグ修正

📊パスレート1

💻DeepSeek V3.1 ダイナミック量子化を実行する