# Benchmarks Unsloth

* Pour des benchmarks plus détaillés, consultez notre [Blog Llama 3.3](https://unsloth.ai/blog/llama3-3).
* Le benchmarking d’Unsloth a également été réalisé par [🤗Hugging Face](https://huggingface.co/blog/unsloth-trl).

{% hint style="warning" %}
Si votre vitesse semble plus lente au début, c’est probablement parce que `torch.compile` prend généralement \~5 minutes (ou plus) pour se mettre en route et terminer la compilation. Assurez-vous de mesurer le débit **après** qu’il soit entièrement chargé, car sur des exécutions plus longues, Unsloth devrait être beaucoup plus rapide.
{% endhint %}

Testé sur H100 et [Blackwell](/docs/fr/blog/fine-tuning-llms-with-blackwell-rtx-50-series-and-unsloth.md) GPU. Nous avons testé en utilisant le jeu de données Alpaca, une taille de batch de 2, des étapes d’accumulation de gradients de 4, rank = 32, et avons appliqué QLoRA à toutes les couches linéaires (q, k, v, o, gate, up, down) :

<table data-full-width="false"><thead><tr><th>Modèle</th><th>VRAM</th><th>🦥Vitesse d’Unsloth</th><th>🦥Réduction de la VRAM</th><th>🦥Contexte plus long</th><th>😊Hugging Face + FA2</th></tr></thead><tbody><tr><td>Llama 3.3 (70B)</td><td>80 Go</td><td>2x</td><td>>75%</td><td>13x plus long</td><td>1x</td></tr><tr><td>Llama 3.1 (8B)</td><td>80 Go</td><td>2x</td><td>>70%</td><td>12x plus long</td><td>1x</td></tr></tbody></table>

## Benchmarks de longueur de contexte

{% hint style="info" %}
Plus vous avez de données, moins Unsloth utilise de VRAM grâce à notre [gradient checkpointing](https://unsloth.ai/blog/long-context) algorithme + l’algorithme CCE d’Apple !
{% endhint %}

### **Longueur maximale du contexte de Llama 3.1 (8B)**

Nous avons testé Llama 3.1 (8B) Instruct et avons effectué une QLoRA en 4 bits sur toutes les couches linéaires (Q, K, V, O, gate, up et down) avec rank = 32 et une taille de batch de 1. Nous avons rempli toutes les séquences jusqu’à une certaine longueur maximale de séquence afin de reproduire des charges de travail de fine-tuning à long contexte.

| VRAM du GPU | 🦥Longueur de contexte d’Unsloth | Hugging Face + FA2 |
| ----------- | -------------------------------- | ------------------ |
| 8 Go        | 2,972                            | OOM                |
| 12 Go       | 21,848                           | 932                |
| 16 Go       | 40,724                           | 2,551              |
| 24 Go       | 78,475                           | 5,789              |
| 40 Go       | 153,977                          | 12,264             |
| 48 Go       | 191,728                          | 15,502             |
| 80 Go       | 342,733                          | 28,454             |

### **Longueur maximale du contexte de Llama 3.3 (70B)**

Nous avons testé Llama 3.3 (70B) Instruct sur un A100 de 80 Go et avons effectué une QLoRA en 4 bits sur toutes les couches linéaires (Q, K, V, O, gate, up et down) avec rank = 32 et une taille de batch de 1. Nous avons rempli toutes les séquences jusqu’à une certaine longueur maximale de séquence afin de reproduire des charges de travail de fine-tuning à long contexte.

| VRAM du GPU | 🦥Longueur de contexte d’Unsloth | Hugging Face + FA2 |
| ----------- | -------------------------------- | ------------------ |
| 48 Go       | 12,106                           | OOM                |
| 80 Go       | 89,389                           | 6,916              |


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/bases/unsloth-benchmarks.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
Modèle	VRAM	🦥Vitesse d’Unsloth	🦥Réduction de la VRAM	🦥Contexte plus long	😊Hugging Face + FA2
Llama 3.3 (70B)	80 Go	2x	>75%	13x plus long	1x
Llama 3.1 (8B)	80 Go	2x	>70%	12x plus long	1x