📊Benchmarks Unsloth

Benchmarks enregistrés par Unsloth sur GPU NVIDIA.

circle-exclamation

Testé sur H100 et Blackwell GPU. Nous avons testé en utilisant le jeu de données Alpaca, une taille de lot de 2, des étapes d'accumulation de gradient de 4, rank = 32, et avons appliqué QLoRA sur toutes les couches linéaires (q, k, v, o, gate, up, down) :

Modèle
VRAM
🦥Vitesse Unsloth
🦥Réduction de VRAM
🦥Contexte plus long
😊Hugging Face + FA2

Llama 3.3 (70B)

80 Go

2x

>75%

13x plus long

1x

Llama 3.1 (8B)

80 Go

2x

>70%

12x plus long

1x

Benchmarks de longueur de contexte

circle-info

Plus vous avez de données, moins Unsloth utilise de VRAM grâce à notre checkpointing de gradientarrow-up-right algorithme + l'algorithme CCE d'Apple !

Longueur de contexte max Llama 3.1 (8B)

Nous avons testé Llama 3.1 (8B) Instruct et effectué du QLoRA 4 bits sur toutes les couches linéaires (Q, K, V, O, gate, up et down) avec rank = 32 et une taille de lot de 1. Nous avons rempli toutes les séquences jusqu'à une certaine longueur maximale pour simuler des charges de travail de fine-tuning sur long contexte.

VRAM GPU
🦥Longueur de contexte Unsloth
Hugging Face + FA2

8 Go

2,972

OOM

12 Go

21,848

932

16 Go

40,724

2,551

24 Go

78,475

5,789

40 Go

153,977

12,264

48 Go

191,728

15,502

80 Go

342,733

28,454

Longueur de contexte max Llama 3.3 (70B)

Nous avons testé Llama 3.3 (70B) Instruct sur une A100 de 80 Go et effectué du QLoRA 4 bits sur toutes les couches linéaires (Q, K, V, O, gate, up et down) avec rank = 32 et une taille de lot de 1. Nous avons rempli toutes les séquences jusqu'à une certaine longueur maximale pour simuler des charges de travail de fine-tuning sur long contexte.

VRAM GPU
🦥Longueur de contexte Unsloth
Hugging Face + FA2

48 Go

12,106

OOM

80 Go

89,389

6,916

Mis à jour

Ce contenu vous a-t-il été utile ?