📊Unsloth ベンチマーク

NVIDIA GPU 上で記録された Unsloth のベンチマーク。

より詳細なベンチマークについては、私たちの Llama 3.3 ブログ.
Unsloth のベンチマークは次によっても実施されました： 🤗Hugging Face.

最初は速度が遅く感じられる場合、考えられる理由は torch.compile が通常ウォームアップとコンパイルの完了に約5分（またはそれ以上）かかるためです。スループットを計測する際は必ず その後に 完全にロードされた状態で計測してください。長時間の実行では Unsloth ははるかに高速になるはずです。

H100 と Blackwell GPU 上でテストしました。Alpaca データセットを使用し、バッチサイズ2、勾配蓄積ステップ4、ランク=32、すべての線形層（q、k、v、o、gate、up、down）に QLoRA を適用してテストしました：

モデル

VRAM

🦥Unsloth の速度

🦥VRAM 削減

🦥より長いコンテキスト

😊Hugging Face + FA2

Llama 3.3（70B）

80GB

>75%

13倍長く

Llama 3.1（8B）

80GB

>70%

12倍長く

コンテキスト長ベンチマーク

データが多ければ多いほど、私たちのために Unsloth は使用する VRAM を減らします：勾配チェックポイントアルゴリズム + Apple の CCE アルゴリズム！

Llama 3.1（8B）最大コンテキスト長

Llama 3.1（8B）Instruct をテストし、すべての線形層（Q、K、V、O、gate、up、down）に対してランク=32 の 4bit QLoRA をバッチサイズ1で実施しました。長いコンテキストのファインチューニングのワークロードを模倣するために、すべてのシーケンスをある最大シーケンス長までパディングしました。

GPU VRAM

🦥Unsloth のコンテキスト長

Hugging Face + FA2

8 GB

2,972

OOM

12 GB

21,848

932

16 GB

40,724

2,551

24 GB

78,475

5,789

40 GB

153,977

12,264

48 GB

191,728

15,502

80 GB

342,733

28,454

Llama 3.3（70B）最大コンテキスト長

Llama 3.3（70B）Instruct を 80GB の A100 上でテストし、すべての線形層（Q、K、V、O、gate、up、down）に対してランク=32 の 4bit QLoRA をバッチサイズ1で実施しました。長いコンテキストのファインチューニングのワークロードを模倣するために、すべてのシーケンスをある最大シーケンス長までパディングしました。

GPU VRAM

🦥Unsloth のコンテキスト長

Hugging Face + FA2

48 GB

12,106

OOM

80 GB

89,389

6,916

前へLast Checkpoint 次へNew 3x Faster Training

最終更新 1 か月前

役に立ちましたか？

hashtagコンテキスト長ベンチマーク

hashtagLlama 3.1（8B）最大コンテキスト長

hashtagLlama 3.3（70B）最大コンテキスト長

コンテキスト長ベンチマーク

Llama 3.1（8B）最大コンテキスト長

Llama 3.3（70B）最大コンテキスト長