使用 Unsloth 训练您自己的模型,Unsloth 是一个用于大型语言模型微调和强化学习的开源框架。
在 Unsloth,我们的使命是让 AI 尽可能准确且易于获取。以 70% 更少的显存将 DeepSeek、gpt-oss、Llama、TTS、Qwen、Gemma 等大型语言模型训练并部署得快 2 倍。
我们的文档将指导您在本地运行和训练自己的模型。
开始使用 我们的 GitHub
更快的 MoE 来了!
以更少的显存将 MoE 大模型训练快 12 倍。
GLM-5
运行新的 SOTA 开源模型。
Qwen3-Coder-Next
运行并微调新的 80B 代码模型。
Kimi K2.5
在本地运行该 SOTA 开源模型。
GLM-4.7-Flash
运行并微调强大的 30B 模型。
嵌入微调
您现在可以训练嵌入模型了!
我们直接与以下团队协作 gpt-ossarrow-up-right, Qwen3arrow-up-right, Llama 4arrow-up-right, Mistral, Gemma 1–3arrow-up-right 以及 Phi-4arrow-up-right,在这些项目中我们 修复了关键漏洞 从而极大地提升了模型的准确性。
Unsloth 通过 Ollama、llama.cpp 和 vLLM 简化了本地训练、评估和部署流程。
Unsloth 是唯一支持如下类型模型的训练框架: 视觉, 语音合成(TTS), 嵌入, 强化学习(RL) 同时通过灵活的对话模板、数据集格式化和可直接使用的笔记本保持可定制性。
支持 全量微调、预训练、4-bit、16-bit 和 8-bit 训练。
支持 所有类型的模型: 语音合成,arrow-up-right 嵌入, 多模态,以及更多。
最高效的强化学习(RL)库,使用 80% 更少显存。支持 GRPO、GSPO 等。
准确率零损失 — 无量化或近似方法 — 全部精确。
多 GPU 已可使用,但更优秀的版本即将推出!
Unsloth 支持 Linux、 Windows、WSL、 NVIDIA 以及 AMD & Intel。参见: Unsloth 要求
通过 pip 在本地安装(推荐) 适用于 Linux 或 WSL 设备:
使用我们的官方 Docker 镜像: unsloth/unsloth。阅读我们的 Docker 指南.
unsloth/unsloth
有关 Windows 的安装说明,请参见 此处.
微调 一个大型语言模型(LLM) 可定制其行为、增强领域知识并优化特定任务的性能。通过在数据集上微调预训练模型(例如 Llama-3.1-8B),您可以:
更新知识:引入新的领域专有信息。
定制行为:调整模型的语气、个性或响应风格。
为任务优化:提高特定用例的准确性和相关性。
强化学习(RL) 是指“智能体”通过与环境交互并接收 反馈 以 奖励 或 惩罚.
动作: 模型生成的内容(例如一句话)。
奖励: 指示模型行为好坏的信号(例如:响应是否遵循指令?是否有帮助?)。
环境: 模型所处理的场景或任务(例如回答用户问题)。
微调或强化学习的示例用例:
使 LLM 能够预测某个标题对公司是正面还是负面影响。
可以利用历史客户交互以提供更准确和定制的回复。
在法律文本上微调 LLM 以用于合同分析、案例法研究和合规审查。
您可以将微调后的模型视为为更有效率地完成特定任务而设计的专门智能体。 微调可以复制 RAG 的所有能力,但反之则不然。
最后更新于1天前
这有帮助吗?
pip install unsloth