For the complete documentation index, see llms.txt. This page is also available as Markdown.

🦥Unsloth 文档

Unsloth 是一个用于运行和训练 LLM 的开源框架。

Unsloth 让你能够在自己的本地硬件上运行和训练 AI 模型。

我们的文档将引导你在本地运行并训练自己的模型。

快速开始 我们的 GitHub

🦥 为什么选择 Unsloth?

⭐ 功能

Unsloth 让你能够运行和训练文本 音频, 嵌入, 视觉 以及更多类型的模型。Unsloth 为推理和训练都提供了许多关键功能:

推理

训练

  • 训练并 RL 500+ 个模型速度提升约 2 倍,显存占用减少约 70%(不损失准确率)

  • 支持全参数微调、预训练、4 位、16 位和 FP8 训练。

  • 自动创建数据集 从 PDF、CSV、DOCX 文件中生成。可在可视化节点工作流中编辑数据。

  • 可观测性:实时监控训练、跟踪损失、GPU 使用率、自定义图表

  • 最高效的 强化学习 库,GRPO 的显存占用减少 80%, FP8 等。

  • 多 GPU 可以使用,但一个更好的版本即将推出!

快速入门

Unsloth 支持 MacOS、Linux、 Windows, NVIDIA、Intel 和 CPU 配置。请参见: Unsloth 需求。使用相同命令进行更新:

MacOS、Linux、WSL:

Windows PowerShell:

Docker

使用我们的官方 Docker 镜像: unsloth/unsloth 目前可用于 Windows、WSL 和 Linux。MacOS 支持即将到来。

启动 Unsloth

什么是微调和 RL?为什么需要它们?

微调 LLM 可以定制其行为、增强领域知识,并针对特定任务优化性能。通过在数据集上对预训练模型(例如 Llama-3.1-8B)进行微调,你可以:

  • 更新知识:引入新的领域特定信息。

  • 定制行为:调整模型的语气、个性或回复风格。

  • 针对任务进行优化:提升特定用例的准确性和相关性。

强化学习(RL) 是指一个“智能体”通过与环境交互并接收 反馈 ,以 奖励惩罚.

  • 的形式来学习做出决策 动作:

  • 模型生成的内容(例如一句话)。 奖励:

  • 表示模型动作好坏的信号(例如:回复是否遵循指令?是否有帮助?)。 环境:

模型正在处理的场景或任务(例如回答用户的问题)。:

  • 示例微调或 RL 用例

  • 使 LLM 能够预测一个标题是否会对公司产生正面或负面影响。

  • 可利用历史客户交互,以获得更准确和更个性化的回复。

可将 LLM 在法律文本上进行微调,用于合同分析、判例法研究和合规。 你可以把微调后的模型看作一个专门的智能体,旨在更高效、更有效地完成特定任务。微调可以复现 RAG 的全部能力

最后更新于

这有帮助吗?