🦥Unsloth 文档

使用 Unsloth 训练您自己的模型,Unsloth 是一个用于大模型微调和强化学习的开源框架。

在 Unsloth,我们的使命是让 AI 尽可能准确且易于获得。使用 70% 更少的显存以 2 倍速度运行和训练 DeepSeek、gpt-oss、Llama、Qwen、Gemma 模型。

我们的文档将指导您在本地运行和训练您自己的模型。

开始使用 我们的 GitHub

🦥 为什么选择 Unsloth?

⭐ 主要特性

  • 支持 完全微调、预训练、4-bit、16-bit 和 8-bit 训练。

  • 支持 所有模型类型: 语音合成,arrow-up-right 嵌入, 视觉等更多。

  • 最高效的 强化学习 库,使用 80% 更少显存。支持 GRPO, FP8 等。

  • 准确度无损失 0% - 无量化或近似方法 - 全部精确。

  • 多 GPU 已能工作,但更好的版本正在推出!

快速开始

Unsloth 支持 Linux、 , NVIDIA, AMD & Intel。参见: Unsloth 要求

通过 pip 在本地安装(推荐) 适用于 Linux 或 WSL 设备:

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 的安装说明,请参见 此处.

新模型

什么是微调和强化学习?为什么要这样做?

微调 一个大模型(LLM) 定制其行为、增强领域知识并优化特定任务的性能。通过在数据集上对预训练模型(例如 Llama-3.1-8B)进行微调,您可以:

  • 更新知识:引入新的领域特定信息。

  • 定制行为:调整模型的语气、个性或响应风格。

  • 为任务优化:提升特定用例的准确性与相关性。

强化学习(RL) 是指“智能体”通过与环境交互并接收 反馈奖励惩罚.

  • 动作: 模型生成的内容(例如一句话)。

  • 奖励: 指示模型动作好坏的信号(例如:回答是否遵循指令?是否有帮助?)。

  • 环境: 模型所处理的场景或任务(例如回答用户的问题)。

微调或强化学习的示例用例:

  • 使大模型能够预测某条标题对公司是正面还是负面影响。

  • 可利用历史客户互动以获得更准确和定制的回复。

  • 对法律文本进行微调,用于合同分析、判例研究和合规性检查。

您可以将微调后的模型视为为更有效率地完成特定任务而设计的专用智能体。 微调可以复制 RAG 的所有功能,但反之则不然。

最后更新于

这有帮助吗?