📊Unsloth-Benchmarks

Unsloth aufgezeichnete Benchmarks auf NVIDIA-GPUs.

circle-exclamation

Getestet auf H100 und Blackwell GPUs. Wir testeten mit dem Alpaca-Datensatz, einer Batch-Größe von 2, Gradient-Accumulation-Schritten von 4, Rang = 32 und wandten QLoRA auf alle linearen Schichten an (q, k, v, o, gate, up, down):

Modell
VRAM
🦥Unsloth-Geschwindigkeit
🦥VRAM-Reduzierung
🦥Längerer Kontext
😊Hugging Face + FA2

Llama 3.3 (70B)

80 GB

2x

>75%

13x länger

1x

Llama 3.1 (8B)

80 GB

2x

>70%

12x länger

1x

Kontextlängen-Benchmarks

circle-info

Je mehr Daten Sie haben, desto weniger VRAM verwendet Unsloth aufgrund unseres Gradient-Checkpointing-arrow-up-right Algorithmus + Apples CCE-Algorithmus!

Llama 3.1 (8B) max. Kontextlänge

Wir testeten Llama 3.1 (8B) Instruct und führten 4bit QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit Rang = 32 und einer Batch-Größe von 1 durch. Wir füllten alle Sequenzen auf eine bestimmte maximale Sequenzlänge auf, um Finetuning-Workloads mit langem Kontext zu simulieren.

GPU-VRAM
🦥Unsloth-Kontextlänge
Hugging Face + FA2

8 GB

2,972

OOM

12 GB

21,848

932

16 GB

40,724

2,551

24 GB

78,475

5,789

40 GB

153,977

12,264

48 GB

191,728

15,502

80 GB

342,733

28,454

Llama 3.3 (70B) max. Kontextlänge

Wir testeten Llama 3.3 (70B) Instruct auf einer 80GB A100 und führten 4bit QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit Rang = 32 und einer Batch-Größe von 1 durch. Wir füllten alle Sequenzen auf eine bestimmte maximale Sequenzlänge auf, um Finetuning-Workloads mit langem Kontext zu simulieren.

GPU-VRAM
🦥Unsloth-Kontextlänge
Hugging Face + FA2

48 GB

12,106

OOM

80 GB

89,389

6,916

Zuletzt aktualisiert

War das hilfreich?