🦥Unsloth 文档

使用 Unsloth 训练您自己的模型，Unsloth 是一个用于 LLM 微调和强化学习的开源框架。

在 Unsloth，我们的使命是让人工智能尽可能准确且易于使用。以 70% 更少的显存将 DeepSeek、gpt-oss、Llama、TTS、Qwen、Gemma 等大语言模型训练和部署速度提升 2 倍。

我们的文档将指导你在本地运行和训练你自己的模型。

开始使用我们的 GitHub

Qwen3.5

全新的 Qwen3.5 模型现已发布！

更快的 MoE 来了！

以更少的显存将 MoE 大模型训练速度提升 12 倍。

GLM-5

运行新的 SOTA 开源模型。

Qwen3-Coder-Next

运行并微调新的 80B 编码模型。

MiniMax-2.5

运行强大的 230B 模型。

嵌入微调

你现在可以训练嵌入模型！

🧬Fine-tuning Guide 📒Unsloth 笔记本

🔮All Our Models 🚀LLM Tutorials Directory

🦥 为什么选择 Unsloth？

我们直接与以下团队协作： gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 和 Phi-4，在这些团队中我们已 修复了关键错误 从而大幅提升了模型的准确性。
Unsloth 通过 Ollama、llama.cpp 和 vLLM 简化了本地训练、评估和部署。
Unsloth 是唯一支持如下类型模型的训练框架：视觉, 语音合成 (TTS), 嵌入, 强化学习 (RL) 同时通过灵活的对话模板、数据集格式和即用型笔记本保持可定制性。

⭐ 主要功能

支持 全量微调, 预训练、4 位、16 位和 8 位训练。
支持 各种类型的模型: 语音合成，嵌入, 多模态，等等。
最高效的强化学习 (RL) 库，使用 80% 更少显存。支持 GRPO、GSPO 等。
准确性无损失 - 无量化或近似方法 - 全部精确。
多 GPU 已可使用，但更完善的版本即将推出！
Unsloth 支持 Linux， Windows, WSL, NVIDIA 和 AMD & Intel。参见： Unsloth 要求

快速开始

在本地通过 pip 安装（推荐） 适用于 Linux 或 WSL 设备：

pip install unsloth

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 的安装说明，请参见此处.

📥Installation

新版本发布

什么是微调和强化学习？为什么使用？

微调一个大语言模型（LLM）自定义其行为、增强领域知识并为特定任务优化性能。通过在某个数据集上对预训练模型（例如 Llama-3.1-8B）进行微调，你可以：

更新知识：引入新的领域特定信息。
自定义行为：调整模型的语气、个性或回应风格。
为任务优化：提高特定用例的准确性和相关性。

强化学习 (RL) 是指一个“智能体”通过与环境交互并接收反馈形式的奖励或惩罚.

动作： 模型生成的内容（例如一句话）。
奖励： 指示模型行为好坏的信号（例如：回答是否遵循指令？是否有帮助？）。
环境： 模型正在处理的场景或任务（例如回答用户的问题）。

示例微调或强化学习的用例:

使大模型能够预测一条标题对公司是正面还是负面影响。
可以使用历史客户交互以提供更准确和定制的回复。
对法律文本微调 LLM，用于合同分析、判例研究和合规性检查。

你可以把微调后的模型看作是为执行特定任务而设计的专业化智能体，更高效地完成这些任务。 微调可以复制 RAG 的所有能力，但反之则不然。

🤔常见问题 + 微调适合我吗？💡Reinforcement Learning Guide

下一页Beginner? Start here!

最后更新于4天前

这有帮助吗？

hashtag🦥 为什么选择 Unsloth？

hashtag⭐ 主要功能

hashtag快速开始

hashtag新版本发布

hashtag什么是微调和强化学习？为什么使用？

🦥 为什么选择 Unsloth？

⭐ 主要功能

快速开始

新版本发布

什么是微调和强化学习？为什么使用？