🦥Unsloth 文档

使用 Unsloth 训练您自己的模型，Unsloth 是一个用于大型语言模型微调和强化学习的开源框架。

在 Unsloth，我们的使命是让人工智能尽可能准确且更易获得。训练并部署 DeepSeek、gpt-oss、Llama、TTS、Qwen、Gemma 等大型语言模型，速度提高 2 倍，显存减少 70%。

我们的文档将指导您如何在本地运行和训练您自己的模型。

开始使用我们的 GitHub

Cover

Qwen3.5

全新 Qwen3.5 Small 与 Medium 大型语言模型已发布！

Cover

更快的 MoE 到来了！

以更少的显存训练 MoE 大型语言模型，速度提高 12 倍。

Cover

Claude Code 与 Codex

学习如何通过 Claude 与 OpenAI 运行本地大型语言模型。

Cover

Qwen3-Coder-Next

运行并微调新的 80B 编码模型。

Cover

GLM-5

运行新的 SOTA 开放模型。

Cover

MiniMax-2.5

运行强大的 230B 模型。

🧬Fine-tuning Guide 📒Unsloth 笔记本

🔮All Our Models 🚀Complete LLM Directory

🦥 为什么选择 Unsloth？

我们直接与以下团队合作 gpt-oss, Qwen3, Llama 4, Mistral, Gemma 1–3 以及 Phi-4，在这些项目中我们已经 修复了关键漏洞 从而大幅提升了模型准确性。
Unsloth 通过 Ollama、llama.cpp 和 vLLM 简化本地训练、评估和部署流程。
Unsloth 支持 500+ 模型的训练：视觉, 语音合成 (TTS), 嵌入, 强化学习同时保持可定制性，提供灵活的对话模板、数据集格式化和现成的笔记本。

⭐ 主要特性

快速开始

Unsloth 支持 Linux、 Windows, NVIDIA、 AMD & Intel。参见： Unsloth 要求

在本地使用 pip 安装（推荐） 适用于 Linux 或 WSL 设备：

使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.

有关 Windows 的安装说明，请参见这里.

📥Installation

新模型

Cover

Kimi K2.5

Cover

GLM-4.7-Flash

Cover

DeepSeek OCR 2

什么是微调与强化学习？为什么要使用？

微调一个大型语言模型定制其行为、增强领域知识，并为特定任务优化性能。通过在数据集上对预训练模型（例如 Llama-3.1-8B）进行微调，您可以：

更新知识：引入新的领域特定信息。
定制行为：调整模型的语气、个性或回应风格。
针对任务优化：提高特定用例的准确性和相关性。

强化学习 (RL) 是指“智能体”通过与环境交互并接收反馈形式的奖励或惩罚.

动作： 模型生成的内容（例如一句话）。
奖励： 指示模型动作好坏的信号（例如响应是否遵循指令？是否有帮助？）。
环境： 模型正在处理的情境或任务（例如回答用户的问题）。

微调或强化学习的示例用例:

使大型语言模型能够预测一条标题对公司是正面还是负面影响。
可以利用历史客户互动来提供更准确和定制的回复。
对法律文本进行微调，用于合同分析、判例研究和合规检查。

您可以将微调后的模型视为为更有效和高效地完成特定任务而设计的专用智能体。 微调可以复制 RAG 的所有能力，但反之则不然。

🤔常见问题 + 微调是否适合我？🖥️推理与部署

💡Reinforcement Learning Guide 🦥Dynamic 2.0 GGUFs

下一页Beginner? Start here!

最后更新于11小时前

这有帮助吗？