📊Unsloth-Benchmarks

Unsloth aufgezeichnete Benchmarks auf NVIDIA-GPUs.

Für detailliertere Benchmarks lesen Sie unser Llama 3.3 Blog.
Benchmarks von Unsloth wurden auch durchgeführt von 🤗Hugging Face.

Wenn Ihre Geschwindigkeit anfangs langsamer erscheint, liegt das wahrscheinlich daran, dass torch.compile typischerweise ~5 Minuten (oder länger) benötigt, um sich aufzuwärmen und die Kompilierung abzuschließen. Stellen Sie sicher, dass Sie den Durchsatz messen nach es vollständig geladen ist, da Unsloth bei längeren Läufen deutlich schneller sein sollte.

Getestet auf H100 und Blackwell GPUs. Wir testeten mit dem Alpaca-Datensatz, einer Batch-Größe von 2, Gradient-Accumulation-Schritten von 4, Rang = 32 und wandten QLoRA auf alle linearen Schichten an (q, k, v, o, gate, up, down):

Modell

VRAM

🦥Unsloth-Geschwindigkeit

🦥VRAM-Reduzierung

🦥Längerer Kontext

😊Hugging Face + FA2

Llama 3.3 (70B)

80 GB

>75%

13x länger

Llama 3.1 (8B)

80 GB

>70%

12x länger

Kontextlängen-Benchmarks

Je mehr Daten Sie haben, desto weniger VRAM verwendet Unsloth aufgrund unseres Gradient-Checkpointing- Algorithmus + Apples CCE-Algorithmus!

Llama 3.1 (8B) max. Kontextlänge

Wir testeten Llama 3.1 (8B) Instruct und führten 4bit QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit Rang = 32 und einer Batch-Größe von 1 durch. Wir füllten alle Sequenzen auf eine bestimmte maximale Sequenzlänge auf, um Finetuning-Workloads mit langem Kontext zu simulieren.

GPU-VRAM

🦥Unsloth-Kontextlänge

Hugging Face + FA2

8 GB

2,972

OOM

12 GB

21,848

932

16 GB

40,724

2,551

24 GB

78,475

5,789

40 GB

153,977

12,264

48 GB

191,728

15,502

80 GB

342,733

28,454

Llama 3.3 (70B) max. Kontextlänge

Wir testeten Llama 3.3 (70B) Instruct auf einer 80GB A100 und führten 4bit QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit Rang = 32 und einer Batch-Größe von 1 durch. Wir füllten alle Sequenzen auf eine bestimmte maximale Sequenzlänge auf, um Finetuning-Workloads mit langem Kontext zu simulieren.

GPU-VRAM

🦥Unsloth-Kontextlänge

Hugging Face + FA2

48 GB

12,106

OOM

80 GB

89,389

6,916

VorherigeLast Checkpoint NächsteNew 3x Faster Training

Zuletzt aktualisiert vor 1 Monat

War das hilfreich?

hashtagKontextlängen-Benchmarks

hashtagLlama 3.1 (8B) max. Kontextlänge

hashtagLlama 3.3 (70B) max. Kontextlänge

Kontextlängen-Benchmarks

Llama 3.1 (8B) max. Kontextlänge

Llama 3.3 (70B) max. Kontextlänge