🦥Unsloth 文档

使用 Unsloth 训练您自己的模型，Unsloth 是一个用于大语言模型微调和强化学习的开源框架。

在 Unsloth，我们的使命是让人工智能尽可能准确且易于访问。训练并部署 DeepSeek、gpt-oss、Llama、TTS、Qwen、Gemma 等大语言模型，速度提升 2 倍，显存减少 70%。

我们的文档将指导你在本地运行和训练自己的模型。

开始使用我们的 GitHub

Cover

Qwen3.5 中等型号

新的 Qwen3.5 大模型：35B、27B、112B 已发布！

Cover

更快的 MoE 来了！

使用更少显存将 MoE 大语言模型的训练速度提升 12 倍。

Cover

Claude Code & Codex

学习通过 Claude 和 OpenAI 运行本地大模型。

Cover

Qwen3-Coder-Next

运行并微调新的 80B 代码模型。

Cover

GLM-5

运行新的最先进开源模型。

Cover

MiniMax-2.5

运行强大的 230B 模型。

🧬Fine-tuning Guide 📒Unsloth 笔记本

🔮All Our Models 🚀Complete LLM Directory

🦥 为什么选择 Unsloth？

我们直接与以下团队合作 gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 以及 Phi-4，我们在这些项目中 修复了关键错误 大幅提升了模型的准确性。
Unsloth 通过 Ollama、llama.cpp 和 vLLM 简化了本地训练、评估和部署流程。
Unsloth 支持 500+ 模型的训练：视觉, TTS（文本转语音）, 嵌入, 强化学习同时保持可定制性，提供灵活的聊天模板、数据集格式化和即用型笔记本。

⭐ 主要功能

快速开始

Unsloth 支持 Linux、 Windows, NVIDIA、 AMD & Intel。参见： Unsloth 要求

使用 pip 本地安装（推荐） 适用于 Linux 或 WSL 设备：

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 安装说明，请参见此处.

📥Installation

新模型

Cover

Kimi K2.5

Cover

GLM-4.7-Flash

Cover

DeepSeek OCR 2

什么是微调和强化学习？为什么要用它们？

微调一个大语言模型定制其行为、增强领域知识，并为特定任务优化性能。通过在数据集上对预训练模型（例如 Llama-3.1-8B）进行微调，你可以：

更新知识：引入新的领域特定信息。
定制行为：调整模型的语气、个性或回答风格。
针对任务优化：提高特定用例的准确性和相关性。

强化学习（RL） 是指一个“智能体”通过与环境交互并获得反馈以奖励或惩罚.

动作： 模型生成的内容（例如一句话）。
奖励： 表示模型动作好坏的信号（例如回答是否遵循指令？是否有用？）。
环境： 模型所处的场景或任务（例如回答用户的问题）。

微调或强化学习的示例用例:

使大模型能够预测某个标题对公司是正面还是负面影响。
可以使用历史客户交互来提供更准确和定制的回复。
对法律文本进行微调以用于合同分析、判例研究和合规性检查。

你可以将微调后的模型视为一个专门的智能体，旨在更有效率地执行特定任务。 微调可以复制所有 RAG 的能力，但反之则不然。

🤔常见问题 + 微调是否适合我？🖥️推理与部署

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs

下一页Beginner? Start here!

最后更新于2天前

这有帮助吗？