使用 Unsloth 的多 GPU 微调

了解如何使用 Unsloth 在多张 GPU 上进行微调和并行训练。

Unsloth 当前通过 Accelerate 和 DeepSpeed 等库支持多 GPU 配置。这意味着您已经可以利用诸如 FSDP 和 DDP 与 Unsloth 一起使用。

请参阅我们新的分布式数据并行（DDP）多 GPU 指南在此处.

我们知道这个过程可能很复杂并且需要手动设置。我们正在努力使多 GPU 支持更简单、更易用，并且我们会很快宣布 Unsloth 的官方多 GPU 支持。

目前，您可以使用我们的 Magistral-2509 Kaggle 笔记本作为示例，该示例利用多 GPU Unsloth 来适配 24B 参数模型，或者使用我们的 DDP 指南.

同时，要为 DDP 启用多 GPU，请执行以下操作：

将您的训练脚本创建为 train.py （或类似文件）。例如，您可以使用我们的一份训练脚本从我们各种笔记本创建的！
运行 accelerate launch train.py 或 torchrun --nproc_per_node N_GPUS train.py 其中 N_GPUS 是您拥有的 GPU 数量。

流水线 / 模型切分加载

如果您没有足够的显存让单个 GPU 加载比如 Llama 70B，不用担心——我们会在每个 GPU 上为您切分模型！要启用此功能，请使用 device_map = "balanced" 标志：

from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    "unsloth/Llama-3.3-70B-Instruct",
    load_in_4bit = True,
    device_map = "balanced",
)

敬请关注我们的官方公告！ 欲了解更多细节，请查看我们正在进行的拉取请求讨论多 GPU 支持。

上一页OpenAI Codex 下一页Distributed Data Parallel (DDP)

最后更新于17天前

这有帮助吗？

hashtag请参阅我们新的分布式数据并行 （DDP）多 GPU 指南在此处.

hashtag流水线 / 模型切分加载

请参阅我们新的分布式数据并行（DDP）多 GPU 指南在此处.

流水线 / 模型切分加载