🦥Unsloth 文档

使用 Unsloth 训练您自己的模型,Unsloth 是用于大模型微调和强化学习的开源框架。

在 Unsloth,我们的使命是让 AI 尽可能准确且易于获取。以 70% 更少的显存训练并部署 DeepSeek、gpt-oss、Llama、TTS、Qwen、Gemma 等大型语言模型,速度提升 2 倍。

我们的文档将指导你在本地运行和训练你自己的模型。

开始使用 我们的 GitHub

🦥 为什么选择 Unsloth?

⭐ 关键特性

  • 支持 全量微调、预训练、4 位、16 位和 8 位训练。

  • 支持 所有类型的模型: 文本转语音,arrow-up-right 嵌入, 多模态,以及更多。

  • 最高效的强化学习(RL)库,使用 80% 更少的显存。支持 GRPO、GSPO 等算法。

  • 准确率无损 ——不使用量化或近似方法——全部精确。

  • 多 GPU 已可使用,但更完善的版本即将推出!

  • Unsloth 支持 Linux, Windows、WSL, NVIDIA 以及 AMD & Intel。参见: Unsloth 要求

快速上手

通过 pip 本地安装(推荐) 适用于 Linux 或 WSL 设备:

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 的安装说明,请参见 此处.

新版本发布

什么是微调和强化学习?为什么要使用?

微调 一个大型语言模型 定制其行为、增强领域知识并为特定任务优化性能。通过在数据集上对预训练模型(例如 Llama-3.1-8B)进行微调,你可以:

  • 更新知识:引入新的领域特定信息。

  • 定制行为:调整模型的语气、个性或回复风格。

  • 针对任务优化:提高在特定用例中的准确性和相关性。

强化学习(RL) 是指一个“代理”通过与环境交互并收到 反馈奖励惩罚.

  • 动作: 模型生成的内容(例如一句话)。

  • 奖励: 一个信号,指示模型的动作有多好或多差(例如回复是否遵循指令?是否有帮助?)。

  • 环境: 模型所处的场景或任务(例如回答用户的问题)。

微调或强化学习的示例用例:

  • 使大型语言模型能够预测某个标题对公司是正面还是负面影响。

  • 可以使用历史客户互动来提供更准确和定制的回复。

  • 在法律文本上微调大型语言模型,用于合同分析、判例研究和合规性工作。

你可以把微调后的模型看作是一个专门的代理,旨在更有效率地完成特定任务。 微调可以复现 RAG 的所有能力,但反之则不然。

🤔常见问题 + 微调适合我吗?chevron-right💡Reinforcement Learning Guidechevron-right

最后更新于

这有帮助吗?