🦥Unsloth 文档

使用 Unsloth 训练您自己的模型，Unsloth 是一个用于大模型微调和强化学习的开源框架。

在 Unsloth，我们的使命是让 AI 尽可能准确且易于获得。使用 70% 更少的显存以 2 倍速度运行和训练 DeepSeek、gpt-oss、Llama、Qwen、Gemma 模型。

我们的文档将指导您在本地运行和训练您自己的模型。

开始使用我们的 GitHub

Cover

Qwen3.5

全新的 Qwen3.5 小型与中型大模型已上线！

Cover

NVIDIA Nemotron-3-Super

运行 NVIDIA 的新 120B 混合模型。

Cover

更快的 MoE 来了！

以更少的显存将 MoE 大模型训练速度提升 12 倍。

Cover

Claude 代码 & Codex

学习通过 Claude 与 OpenAI 在本地运行大模型。

Cover

Qwen3-Coder-Next

运行并微调新的 80B 编码模型。

Cover

GLM-4.7-Flash

运行并微调用于代理式编码的 30B 模型。

🧬Fine-tuning Guide 📒Unsloth 笔记本

🔮All Our Models 🚀Complete LLM Directory

🦥 为什么选择 Unsloth？

我们直接与以下团队协作： gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 以及 Phi-4，在这些项目中我们已经 修复了关键错误 从而大幅提升了模型准确性。
Unsloth 通过 Ollama、llama.cpp 和 vLLM 简化了本地训练、评估与部署。
Unsloth 支持 500 多个模型的训练：视觉, 语音合成, 嵌入, 强化学习同时通过灵活的聊天模板、数据集格式化和现成笔记本保持可定制性。

⭐ 主要特性

支持 完全微调、预训练、4-bit、16-bit 和 8-bit 训练。
支持 所有模型类型: 语音合成，嵌入, 视觉等更多。
最高效的强化学习库，使用 80% 更少显存。支持 GRPO， FP8 等。
准确度无损失 0% - 无量化或近似方法 - 全部精确。
多 GPU 已能工作，但更好的版本正在推出！

快速开始

Unsloth 支持 Linux、窗, NVIDIA, AMD & Intel。参见： Unsloth 要求

通过 pip 在本地安装（推荐） 适用于 Linux 或 WSL 设备：

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 的安装说明，请参见此处.

📥Installation

新模型

Cover

Kimi K2.5

Cover

MiniMax-M2.5

Cover

GLM-5

什么是微调和强化学习？为什么要这样做？

微调一个大模型（LLM）定制其行为、增强领域知识并优化特定任务的性能。通过在数据集上对预训练模型（例如 Llama-3.1-8B）进行微调，您可以：

更新知识：引入新的领域特定信息。
定制行为：调整模型的语气、个性或响应风格。
为任务优化：提升特定用例的准确性与相关性。

强化学习（RL） 是指“智能体”通过与环境交互并接收反馈以奖励或惩罚.

动作： 模型生成的内容（例如一句话）。
奖励： 指示模型动作好坏的信号（例如：回答是否遵循指令？是否有帮助？）。
环境： 模型所处理的场景或任务（例如回答用户的问题）。

微调或强化学习的示例用例:

使大模型能够预测某条标题对公司是正面还是负面影响。
可利用历史客户互动以获得更准确和定制的回复。
对法律文本进行微调，用于合同分析、判例研究和合规性检查。

您可以将微调后的模型视为为更有效率地完成特定任务而设计的专用智能体。 微调可以复制 RAG 的所有功能，但反之则不然。

🤔常见问题 + 微调适合我吗？🖥️推理与部署

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs

下一页Beginner? Start here!

最后更新于2天前

这有帮助吗？