🦥Unsloth 文档

Unsloth 是一个用于运行和训练模型的开源框架。

Unsloth 让你能在自己的本地硬件上运行和训练 AI 模型。

我们的文档将引导你在本地运行并训练自己的模型。

开始使用 我们的 GitHub

🦥 为什么选择 Unsloth?

⭐ 功能

Unsloth 让你能够运行和训练用于文本的模型, 音频arrow-up-right, 嵌入arrow-up-right, 视觉arrow-up-right 以及更多内容。Unsloth 为推理和训练都提供了许多关键功能:

推理

训练

  • 训练并 RL 以约 70% 更少的 VRAM,将 500+ 个模型的训练速度提升约 2 倍(且不损失准确率)

  • 支持全量微调、预训练、4 位、16 位和 FP8 训练。

  • 自动创建数据集 从 PDF、CSV、DOCX 文件中创建。可在可视化节点工作流中编辑数据。

  • 可观测性:实时监控训练,跟踪损失、GPU 使用率,自定义图表

  • 最节省资源的 强化学习 库,GRPO 使用的 VRAM 减少 80%, FP8 等等。

  • 多 GPU 可以用,但更好的版本即将推出!

快速开始

Unsloth 支持 MacOS、Linux、 Windows, NVIDIA、Intel 和 CPU 配置。见: Unsloth 运行要求。使用相同命令更新:

MacOS、Linux、WSL:

Windows PowerShell:

Docker

使用我们的官方 Docker 镜像: unsloth/unslotharrow-up-right 目前可用于 Windows、WSL 和 Linux。MacOS 支持即将推出。

启动 Unsloth

新模型

什么是微调和 RL?为什么要用?

微调 一个 LLM 会定制其行为,增强领域知识,并针对特定任务优化性能。通过在数据集上对预训练模型(例如 Llama-3.1-8B)进行微调,你可以:

  • 更新知识:引入新的领域特定信息。

  • 定制行为:调整模型的语气、个性或回复风格。

  • 针对任务优化:提升特定用例的准确性和相关性。

强化学习(RL) 是一个“智能体”通过与环境交互并接收 反馈 ,以 奖励惩罚.

  • 行动: 模型生成的内容(例如一句话)。

  • 奖励: 表示模型行为好坏的信号(例如,回复是否遵循指令?是否有帮助?)。

  • 环境: 模型所处理的场景或任务(例如,回答用户的问题)。

微调或 RL 的示例用例:

  • 使 LLM 能够预测标题是否会对公司产生正面或负面影响。

  • 可以利用历史客户交互,生成更准确、更个性化的回复。

  • 在法律文本上对 LLM 进行微调,用于合同分析、案例法研究和合规。

你可以将微调后的模型视为一个专门的智能体,旨在更有效、更高效地执行特定任务。 微调可以复现 RAG 的全部能力,但反之则不然。

最后更新于

这有帮助吗?