# Unsloth ベンチマーク

* より詳細なベンチマークについては、私たちの [Llama 3.3 ブログ](https://unsloth.ai/blog/llama3-3).
* Unsloth のベンチマークは次によっても実施されました： [🤗Hugging Face](https://huggingface.co/blog/unsloth-trl).

{% hint style="warning" %}
最初は速度が遅く感じられる場合、考えられる理由は `torch.compile` が通常ウォームアップとコンパイルの完了に約5分（またはそれ以上）かかるためです。スループットを計測する際は必ず **その後に** 完全にロードされた状態で計測してください。長時間の実行では Unsloth ははるかに高速になるはずです。
{% endhint %}

H100 と [Blackwell](https://unsloth.ai/docs/jp/burogu/fine-tuning-llms-with-blackwell-rtx-50-series-and-unsloth) GPU 上でテストしました。Alpaca データセットを使用し、バッチサイズ2、勾配蓄積ステップ4、ランク=32、すべての線形層（q、k、v、o、gate、up、down）に QLoRA を適用してテストしました：

<table data-full-width="false"><thead><tr><th>モデル</th><th>VRAM</th><th>🦥Unsloth の速度</th><th>🦥VRAM 削減</th><th>🦥より長いコンテキスト</th><th>😊Hugging Face + FA2</th></tr></thead><tbody><tr><td>Llama 3.3（70B）</td><td>80GB</td><td>2x</td><td>>75%</td><td>13倍長く</td><td>1x</td></tr><tr><td>Llama 3.1（8B）</td><td>80GB</td><td>2x</td><td>>70%</td><td>12倍長く</td><td>1x</td></tr></tbody></table>

## コンテキスト長ベンチマーク

{% hint style="info" %}
データが多ければ多いほど、私たちのために Unsloth は使用する VRAM を減らします： [勾配チェックポイント](https://unsloth.ai/blog/long-context) アルゴリズム + Apple の CCE アルゴリズム！
{% endhint %}

### **Llama 3.1（8B）最大コンテキスト長**

Llama 3.1（8B）Instruct をテストし、すべての線形層（Q、K、V、O、gate、up、down）に対してランク=32 の 4bit QLoRA をバッチサイズ1で実施しました。長いコンテキストのファインチューニングのワークロードを模倣するために、すべてのシーケンスをある最大シーケンス長までパディングしました。

| GPU VRAM | 🦥Unsloth のコンテキスト長 | Hugging Face + FA2 |
| -------- | ------------------ | ------------------ |
| 8 GB     | 2,972              | OOM                |
| 12 GB    | 21,848             | 932                |
| 16 GB    | 40,724             | 2,551              |
| 24 GB    | 78,475             | 5,789              |
| 40 GB    | 153,977            | 12,264             |
| 48 GB    | 191,728            | 15,502             |
| 80 GB    | 342,733            | 28,454             |

### **Llama 3.3（70B）最大コンテキスト長**

Llama 3.3（70B）Instruct を 80GB の A100 上でテストし、すべての線形層（Q、K、V、O、gate、up、down）に対してランク=32 の 4bit QLoRA をバッチサイズ1で実施しました。長いコンテキストのファインチューニングのワークロードを模倣するために、すべてのシーケンスをある最大シーケンス長までパディングしました。

| GPU VRAM | 🦥Unsloth のコンテキスト長 | Hugging Face + FA2 |
| -------- | ------------------ | ------------------ |
| 48 GB    | 12,106             | OOM                |
| 80 GB    | 89,389             | 6,916              |
