📊Unsloth 基准

Unsloth 在 NVIDIA GPU 上记录的基准数据。

circle-exclamation

在 H100 和 Blackwell GPU 上测试。我们使用 Alpaca 数据集进行测试,批量大小为 2,梯度累积步数为 4,秩 = 32,并对所有线性层(q、k、v、o、gate、up、down)应用了 QLoRA:

模型
显存
🦥Unsloth 速度
🦥显存减少
🦥更长的上下文
😊Hugging Face + FA2

Llama 3.3(70B)

80GB

2x

>75%

13 倍更长

1x

Llama 3.1(8B)

80GB

2x

>70%

12 倍更长

1x

上下文长度基准

circle-info

由于我们的更多数据会使 Unsloth 使用更少的显存,原因在于我们的 梯度检查点arrow-up-right 算法 + 苹果的 CCE 算法!

Llama 3.1(8B)最大上下文长度

我们测试了 Llama 3.1(8B)Instruct,并对所有线性层(Q、K、V、O、gate、up 和 down)进行了 4bit QLoRA,秩 = 32,批量大小为 1。我们将所有序列填充到某个最大序列长度,以模拟长上下文微调的工作负载。

GPU 显存
🦥Unsloth 上下文长度
Hugging Face + FA2

8 GB

2,972

内存溢出(OOM)

12 GB

21,848

932

16 GB

40,724

2,551

24 GB

78,475

5,789

40 GB

153,977

12,264

48 GB

191,728

15,502

80 GB

342,733

28,454

Llama 3.3(70B)最大上下文长度

我们在 80GB 的 A100 上测试了 Llama 3.3(70B)Instruct,并对所有线性层(Q、K、V、O、gate、up 和 down)进行了 4bit QLoRA,秩 = 32,批量大小为 1。我们将所有序列填充到某个最大序列长度,以模拟长上下文微调的工作负载。

GPU 显存
🦥Unsloth 上下文长度
Hugging Face + FA2

48 GB

12,106

内存溢出(OOM)

80 GB

89,389

6,916

最后更新于

这有帮助吗?