📊Unsloth ベンチマーク

NVIDIA GPU 上で記録された Unsloth のベンチマーク。

circle-exclamation

H100 と Blackwell GPU 上でテストしました。Alpaca データセットを使用し、バッチサイズ2、勾配蓄積ステップ4、ランク=32、すべての線形層(q、k、v、o、gate、up、down)に QLoRA を適用してテストしました:

モデル
VRAM
🦥Unsloth の速度
🦥VRAM 削減
🦥より長いコンテキスト
😊Hugging Face + FA2

Llama 3.3(70B)

80GB

2x

>75%

13倍長く

1x

Llama 3.1(8B)

80GB

2x

>70%

12倍長く

1x

コンテキスト長ベンチマーク

circle-info

データが多ければ多いほど、私たちのために Unsloth は使用する VRAM を減らします: 勾配チェックポイントarrow-up-right アルゴリズム + Apple の CCE アルゴリズム!

Llama 3.1(8B)最大コンテキスト長

Llama 3.1(8B)Instruct をテストし、すべての線形層(Q、K、V、O、gate、up、down)に対してランク=32 の 4bit QLoRA をバッチサイズ1で実施しました。長いコンテキストのファインチューニングのワークロードを模倣するために、すべてのシーケンスをある最大シーケンス長までパディングしました。

GPU VRAM
🦥Unsloth のコンテキスト長
Hugging Face + FA2

8 GB

2,972

OOM

12 GB

21,848

932

16 GB

40,724

2,551

24 GB

78,475

5,789

40 GB

153,977

12,264

48 GB

191,728

15,502

80 GB

342,733

28,454

Llama 3.3(70B)最大コンテキスト長

Llama 3.3(70B)Instruct を 80GB の A100 上でテストし、すべての線形層(Q、K、V、O、gate、up、down)に対してランク=32 の 4bit QLoRA をバッチサイズ1で実施しました。長いコンテキストのファインチューニングのワークロードを模倣するために、すべてのシーケンスをある最大シーケンス長までパディングしました。

GPU VRAM
🦥Unsloth のコンテキスト長
Hugging Face + FA2

48 GB

12,106

OOM

80 GB

89,389

6,916

最終更新

役に立ちましたか?