📊Unsloth-Benchmarks

Von Unsloth aufgezeichnete Benchmarks auf NVIDIA-GPUs.

circle-exclamation

Getestet auf H100 und Blackwell GPUs. Wir testeten mit dem Alpaca-Datensatz, einer Batch-GrĂ¶ĂŸe von 2, Gradient-Accumulation-Schritten von 4, Rang = 32 und wandten QLoRA auf alle linearen Schichten an (q, k, v, o, gate, up, down):

Modell
VRAM
đŸŠ„Unsloth-Geschwindigkeit
đŸŠ„VRAM-Reduzierung
đŸŠ„LĂ€ngerer Kontext
😊Hugging Face + FA2

Llama 3.3 (70B)

80 GB

2x

>75%

13x lÀnger

1x

Llama 3.1 (8B)

80 GB

2x

>70%

12x lÀnger

1x

KontextlÀngen-Benchmarks

circle-info

Je mehr Daten Sie haben, desto weniger VRAM verwendet Unsloth aufgrund unseres Gradient-Checkpointing-arrow-up-right Algorithmus + Apples CCE-Algorithmus!

Llama 3.1 (8B) max. KontextlÀnge

Wir testeten Llama 3.1 (8B) Instruct und fĂŒhrten 4bit QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit Rang = 32 und einer Batch-GrĂ¶ĂŸe von 1 durch. Wir fĂŒllten alle Sequenzen auf eine bestimmte maximale SequenzlĂ€nge auf, um Finetuning-Workloads mit langem Kontext zu simulieren.

GPU-VRAM
đŸŠ„Unsloth-KontextlĂ€nge
Hugging Face + FA2

8 GB

2,972

OOM

12 GB

21,848

932

16 GB

40,724

2,551

24 GB

78,475

5,789

40 GB

153,977

12,264

48 GB

191,728

15,502

80 GB

342,733

28,454

Llama 3.3 (70B) max. KontextlÀnge

Wir testeten Llama 3.3 (70B) Instruct auf einer 80GB A100 und fĂŒhrten 4bit QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit Rang = 32 und einer Batch-GrĂ¶ĂŸe von 1 durch. Wir fĂŒllten alle Sequenzen auf eine bestimmte maximale SequenzlĂ€nge auf, um Finetuning-Workloads mit langem Kontext zu simulieren.

GPU-VRAM
đŸŠ„Unsloth-KontextlĂ€nge
Hugging Face + FA2

48 GB

12,106

OOM

80 GB

89,389

6,916

Zuletzt aktualisiert

War das hilfreich?