# Benchmarks Unsloth

* Pour des benchmarks plus détaillés, lisez notre [Blog Llama 3.3](https://unsloth.ai/blog/llama3-3).
* Le benchmarking d'Unsloth a également été réalisé par [🤗Hugging Face](https://huggingface.co/blog/unsloth-trl).

{% hint style="warning" %}
Si votre vitesse semble plus lente au début, c'est probablement parce que `torch.compile` prend généralement \~5 minutes (ou plus) pour se chauffer et terminer la compilation. Assurez-vous de mesurer le débit **après** qu'il soit entièrement chargé car sur des exécutions plus longues, Unsloth devrait être beaucoup plus rapide.
{% endhint %}

Testé sur H100 et [Blackwell](https://unsloth.ai/docs/fr/blog/fine-tuning-llms-with-blackwell-rtx-50-series-and-unsloth) GPU. Nous avons testé en utilisant le jeu de données Alpaca, une taille de lot de 2, des étapes d'accumulation de gradient de 4, rank = 32, et avons appliqué QLoRA sur toutes les couches linéaires (q, k, v, o, gate, up, down) :

<table data-full-width="false"><thead><tr><th>Modèle</th><th>VRAM</th><th>🦥Vitesse Unsloth</th><th>🦥Réduction de VRAM</th><th>🦥Contexte plus long</th><th>😊Hugging Face + FA2</th></tr></thead><tbody><tr><td>Llama 3.3 (70B)</td><td>80 Go</td><td>2x</td><td>>75%</td><td>13x plus long</td><td>1x</td></tr><tr><td>Llama 3.1 (8B)</td><td>80 Go</td><td>2x</td><td>>70%</td><td>12x plus long</td><td>1x</td></tr></tbody></table>

## Benchmarks de longueur de contexte

{% hint style="info" %}
Plus vous avez de données, moins Unsloth utilise de VRAM grâce à notre [checkpointing de gradient](https://unsloth.ai/blog/long-context) algorithme + l'algorithme CCE d'Apple !
{% endhint %}

### **Longueur de contexte max Llama 3.1 (8B)**

Nous avons testé Llama 3.1 (8B) Instruct et effectué du QLoRA 4 bits sur toutes les couches linéaires (Q, K, V, O, gate, up et down) avec rank = 32 et une taille de lot de 1. Nous avons rempli toutes les séquences jusqu'à une certaine longueur maximale pour simuler des charges de travail de fine-tuning sur long contexte.

| VRAM GPU | 🦥Longueur de contexte Unsloth | Hugging Face + FA2 |
| -------- | ------------------------------ | ------------------ |
| 8 Go     | 2,972                          | OOM                |
| 12 Go    | 21,848                         | 932                |
| 16 Go    | 40,724                         | 2,551              |
| 24 Go    | 78,475                         | 5,789              |
| 40 Go    | 153,977                        | 12,264             |
| 48 Go    | 191,728                        | 15,502             |
| 80 Go    | 342,733                        | 28,454             |

### **Longueur de contexte max Llama 3.3 (70B)**

Nous avons testé Llama 3.3 (70B) Instruct sur une A100 de 80 Go et effectué du QLoRA 4 bits sur toutes les couches linéaires (Q, K, V, O, gate, up et down) avec rank = 32 et une taille de lot de 1. Nous avons rempli toutes les séquences jusqu'à une certaine longueur maximale pour simuler des charges de travail de fine-tuning sur long contexte.

| VRAM GPU | 🦥Longueur de contexte Unsloth | Hugging Face + FA2 |
| -------- | ------------------------------ | ------------------ |
| 48 Go    | 12,106                         | OOM                |
| 80 Go    | 89,389                         | 6,916              |
