# Unsloth-Benchmarks

* Für ausführlichere Benchmarks lesen Sie unseren [Llama-3.3-Blog](https://unsloth.ai/blog/llama3-3).
* Das Benchmarking von Unsloth wurde auch durchgeführt von [🤗Hugging Face](https://huggingface.co/blog/unsloth-trl).

{% hint style="warning" %}
Wenn Ihre Geschwindigkeit anfangs langsamer erscheint, liegt das wahrscheinlich daran, dass `torch.compile` typischerweise etwa \~5 Minuten (oder länger) zum Aufwärmen und Abschließen der Kompilierung benötigt. Stellen Sie sicher, dass Sie den Durchsatz messen **nachdem** es vollständig geladen ist, da Unsloth über längere Läufe hinweg deutlich schneller sein sollte.
{% endhint %}

Getestet auf H100 und [Blackwell](/docs/de/blog/fine-tuning-llms-with-blackwell-rtx-50-series-and-unsloth.md) GPUs. Wir testeten mit dem Alpaca-Datensatz, einer Batchgröße von 2, Gradient-Accumulation-Schritten von 4, rank = 32, und wendeten QLoRA auf alle linearen Schichten an (q, k, v, o, gate, up, down):

<table data-full-width="false"><thead><tr><th>Modell</th><th>VRAM</th><th>🦥Unsloth-Geschwindigkeit</th><th>🦥VRAM-Reduktion</th><th>🦥Längerer Kontext</th><th>😊Hugging Face + FA2</th></tr></thead><tbody><tr><td>Llama 3.3 (70B)</td><td>80 GB</td><td>2x</td><td>>75%</td><td>13x länger</td><td>1x</td></tr><tr><td>Llama 3.1 (8B)</td><td>80 GB</td><td>2x</td><td>>70%</td><td>12x länger</td><td>1x</td></tr></tbody></table>

## Kontextlängen-Benchmarks

{% hint style="info" %}
Je mehr Daten Sie haben, desto weniger VRAM verwendet Unsloth dank unseres [Gradient Checkpointing](https://unsloth.ai/blog/long-context) Algorithmus + Apples CCE-Algorithmus!
{% endhint %}

### **max. Kontextlänge von Llama 3.1 (8B)**

Wir testeten Llama 3.1 (8B) Instruct und führten 4-Bit-QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit rank = 32 und einer Batchgröße von 1 durch. Wir paddeten alle Sequenzen auf eine bestimmte maximale Sequenzlänge, um Long-Context-Fine-Tuning-Workloads zu simulieren.

| GPU-VRAM | 🦥Unsloth-Kontextlänge | Hugging Face + FA2 |
| -------- | ---------------------- | ------------------ |
| 8 GB     | 2,972                  | OOM                |
| 12 GB    | 21,848                 | 932                |
| 16 GB    | 40,724                 | 2,551              |
| 24 GB    | 78,475                 | 5,789              |
| 40 GB    | 153,977                | 12,264             |
| 48 GB    | 191,728                | 15,502             |
| 80 GB    | 342,733                | 28,454             |

### **max. Kontextlänge von Llama 3.3 (70B)**

Wir testeten Llama 3.3 (70B) Instruct auf einer 80GB A100 und führten 4-Bit-QLoRA auf allen linearen Schichten (Q, K, V, O, gate, up und down) mit rank = 32 und einer Batchgröße von 1 durch. Wir paddeten alle Sequenzen auf eine bestimmte maximale Sequenzlänge, um Long-Context-Fine-Tuning-Workloads zu simulieren.

| GPU-VRAM | 🦥Unsloth-Kontextlänge | Hugging Face + FA2 |
| -------- | ---------------------- | ------------------ |
| 48 GB    | 12,106                 | OOM                |
| 80 GB    | 89,389                 | 6,916              |


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/unsloth-benchmarks.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
