> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/zh/kai-shi-shi-yong.md).

# 开始使用

- [Unsloth 文档](https://unsloth.ai/docs/zh/kai-shi-shi-yong/readme.md): Unsloth 是一个用于运行和训练大语言模型（LLM）的开源框架。
- [Unsloth 模型目录](https://unsloth.ai/docs/zh/kai-shi-shi-yong/unsloth-model-catalog.md)
- [面向初学者的微调](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-for-beginners.md)
- [Unsloth 需求](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-for-beginners/unsloth-requirements.md): 这里列出了 Unsloth 的需求，包括系统和 GPU VRAM 要求。
- [常见问题 + 微调适合我吗？](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-for-beginners/faq-+-is-fine-tuning-right-for-me.md): 如果你还在犹豫微调是否适合你，就看这里！了解微调的误区、它与 RAG 的比较等内容：
- [Unsloth 笔记本](https://unsloth.ai/docs/zh/kai-shi-shi-yong/unsloth-notebooks.md): 微调笔记本：浏览 Unsloth 目录。
- [Unsloth 安装](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install.md): 了解如何在本地或在线安装 Unsloth。
- [通过 pip 和 uv 安装 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/pip-install.md): 要通过 Pip 在本地安装 Unsloth，请按照以下步骤操作：
- [在 MacOS 上安装 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/mac.md)
- [如何在 Windows 上使用 Unsloth 对 LLM 进行微调（分步指南）](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/windows-installation.md): 查看如何在 Windows 上安装 Unsloth，以便开始在本地对 LLM 进行微调。
- [通过 Docker 安装 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/docker.md): 使用我们的官方 Docker 容器安装 Unsloth
- [更新 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/updating.md): 要更新或使用旧版本的 Unsloth，请按照以下步骤操作：
- [使用 Unsloth 在 AMD GPU 上微调 LLM 指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/amd.md): 了解如何使用 Unsloth 在 AMD GPU 上微调大型语言模型（LLM）。
- [Unsloth AMD AI 强化学习黑客马拉松](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/amd/amd-hackathon.md): ​​从 Unsloth 的创建者 Daniel Han 那里，亲手学习使用 Unsloth 进行 AI 模型强化学习的实战技巧。
- [使用 Unsloth 在 Intel GPU 上微调 LLM](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/intel.md): 了解如何在 Intel GPU 上训练和微调大型语言模型。
- [Conda 安装](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/conda-install.md): 要在 Conda 上本地安装 Unsloth，请按照以下步骤操作：
- [如何使用 Unsloth 和 Colab GPU 在 VS Code 中微调 LLM](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/vs-code.md): 通过 Unsloth 和 Google Colab 直接在 Visual Studio Code 中微调模型的指南。
- [Google Colab](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/google-colab.md): 要在 Google Colab 上安装并运行 Unsloth，请按照以下步骤操作：
- [LLM 微调指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide.md): 学习微调的所有基础知识和最佳实践。适合初学者。
- [数据集指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/datasets-guide.md): 学习如何创建和准备用于微调的数据集。
- [LoRA 微调超参数指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/lora-hyperparameters-guide.md): 逐步学习最佳的 LLM 微调设置——LoRA rank 和 alpha、epoch、batch size + 梯度累积、QLoRA vs. LoRA、目标模块等。
- [微调时我应该使用哪个模型？](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/what-model-should-i-use.md)
- [教程：如何微调 Llama-3 并在 Ollama 中使用](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama.md): 适合初学者的指南：创建一个可在 Ollama 上本地运行的自定义个人助手（类似 ChatGPT）
- [强化学习（RL）指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide.md): 全面了解强化学习（RL）以及如何使用 Unsloth 和 GRPO 训练你自己的 DeepSeek-R1 推理模型。从入门到进阶的完整指南。
- [使用 7 倍更长上下文的强化学习 GRPO](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/grpo-long-context.md): 了解 Unsloth 如何实现超长上下文的 RL 微调。
- [视觉强化学习（VLM RL）](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md): 通过 Unsloth 使用 GRPO 和 RL 训练视觉/多模态模型！
- [FP8 强化学习](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/fp8-reinforcement-learning.md): 使用 Unsloth 以 FP8 精度训练强化学习（RL）和 GRPO。
- [教程：使用 GRPO 训练你自己的推理模型](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/tutorial-train-your-own-reasoning-model-with-grpo.md): 适合初学者的指南：通过使用 Unsloth 和 GRPO，将类似 Llama 3.1（8B）的模型转换为推理模型。
- [高级强化学习文档](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation.md): 在使用 Unsloth 和 GRPO 时的高级文档设置。
- [GSPO 强化学习](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation/gspo-reinforcement-learning.md): 在 Unsloth 中使用 GSPO（Group Sequence Policy Optimization）进行 RL 训练。
- [RL 奖励黑客行为](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation/rl-reward-hacking.md): 了解什么是强化学习中的奖励黑客行为，以及如何应对。
- [RL 中的 FP16 与 BF16](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation/fp16-vs-bf16-for-rl.md): 《通过 FP16 击败训练-推理不匹配》https://arxiv.org/pdf/2510.26788 展示了使用 float16 比 bfloat16 更好
- [内存高效型 RL](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/memory-efficient-rl.md)
- [偏好优化训练 - DPO、ORPO 和 KTO](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/preference-dpo-orpo-and-kto.md): 通过 Unsloth 了解使用 DPO、GRPO、ORPO 或 KTO 进行偏好对齐微调，请按照以下步骤操作：
- [使用 RL 训练 AI Agent](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/training-ai-agents-with-rl.md): 了解如何使用强化学习（RL）训练用于真实世界任务的 AI Agent。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/zh/kai-shi-shi-yong.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
