# 开始使用

- [Unsloth 文档](https://unsloth.ai/docs/zh/kai-shi-shi-yong/readme.md): Unsloth 是一个用于运行和训练模型的开源框架。
- [面向初学者的微调](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-for-beginners.md)
- [Unsloth 要求](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-for-beginners/unsloth-requirements.md): 这里列出了 Unsloth 的要求，包括系统和 GPU VRAM 要求。
- [常见问题 + 微调适合我吗？](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-for-beginners/faq-+-is-fine-tuning-right-for-me.md): 如果你还在犹豫微调是否适合你，看看这里！了解微调的误区，以及它与 RAG 的比较等内容：
- [Unsloth 笔记本](https://unsloth.ai/docs/zh/kai-shi-shi-yong/unsloth-notebooks.md): 微调笔记本：浏览 Unsloth 目录。
- [Unsloth 模型目录](https://unsloth.ai/docs/zh/kai-shi-shi-yong/unsloth-model-catalog.md)
- [Unsloth 安装](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install.md): 了解如何在本地或在线安装 Unsloth。
- [通过 pip 和 uv 安装 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/pip-install.md): 要通过 Pip 在本地安装 Unsloth，请按照以下步骤操作：
- [在 MacOS 上安装 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/mac.md)
- [如何在 Windows 上使用 Unsloth 对 LLM 进行微调（分步指南）](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/windows-installation.md): 了解如何在 Windows 上安装 Unsloth，以开始在本地对 LLM 进行微调。
- [通过 Docker 安装 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/docker.md): 使用我们的官方 Docker 容器安装 Unsloth
- [更新 Unsloth](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/updating.md): 要更新或使用旧版本的 Unsloth，请按照以下步骤操作：
- [使用 Unsloth 在 AMD GPU 上微调 LLM 指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/amd.md): 了解如何使用 Unsloth 在 AMD GPU 上微调大型语言模型（LLM）。
- [使用 Unsloth 参加 AMD AI 强化学习黑客松](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/amd/amd-hackathon.md): 跟随 Unsloth 的创建者 Daniel Han，亲手学习使用 Unsloth 为 AI 模型进行强化学习的实用技巧。
- [使用 Unsloth 在 Intel GPU 上微调 LLM](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/intel.md): 了解如何在 Intel GPU 上训练和微调大型语言模型。
- [Conda 安装](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/conda-install.md): 要通过 Conda 在本地安装 Unsloth，请按照以下步骤操作：
- [如何使用 Unsloth 和 Colab GPU 在 VS Code 中微调 LLM](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/vs-code.md): 通过 Unsloth 和 Google Colab 直接在 Visual Studio Code 中微调模型的指南。
- [Google Colab](https://unsloth.ai/docs/zh/kai-shi-shi-yong/install/google-colab.md): 要在 Google Colab 上安装并运行 Unsloth，请按照以下步骤操作：
- [LLM 微调指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide.md): 学习微调的所有基础知识和最佳实践，适合初学者。
- [数据集指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/datasets-guide.md): 学习如何创建和准备用于微调的数据集。
- [LoRA 微调超参数指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/lora-hyperparameters-guide.md): 逐步了解最佳的 LLM 微调设置——LoRA rank 和 alpha、训练轮数、批量大小 + 梯度累积、QLoRA 与 LoRA、目标模块等。
- [我应该使用什么模型进行微调？](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/what-model-should-i-use.md)
- [教程：如何微调 Llama-3 并在 Ollama 中使用](https://unsloth.ai/docs/zh/kai-shi-shi-yong/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama.md): 面向初学者的指南：创建一个可在 Ollama 上本地运行的个性化私人助手（类似 ChatGPT）
- [强化学习（RL）指南](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide.md): 全面了解强化学习（RL），以及如何使用 Unsloth 和 GRPO 训练你自己的 DeepSeek-R1 推理模型。从入门到进阶的完整指南。
- [使用 7 倍更长上下文的强化学习 GRPO](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/grpo-long-context.md): 了解 Unsloth 如何实现超长上下文的 RL 微调。
- [视觉强化学习（VLM RL）](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md): 通过 GRPO 和 RL 使用 Unsloth 训练视觉/多模态模型！
- [FP8 强化学习](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/fp8-reinforcement-learning.md): 使用 Unsloth 以 FP8 精度训练强化学习（RL）和 GRPO。
- [教程：使用 GRPO 训练你自己的推理模型](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/tutorial-train-your-own-reasoning-model-with-grpo.md): 面向初学者的指南：通过使用 Unsloth 和 GRPO，将类似 Llama 3.1（8B）的模型转变为推理模型。
- [高级强化学习文档](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation.md): 在使用 Unsloth 和 GRPO 时的高级文档设置。
- [GSPO 强化学习](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation/gspo-reinforcement-learning.md): 在 Unsloth 中使用 GSPO（组序列策略优化）进行 RL 训练。
- [RL 奖励黑客](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation/rl-reward-hacking.md): 了解什么是强化学习中的奖励黑客，以及如何应对它。
- [RL 中的 FP16 与 BF16](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/advanced-rl-documentation/fp16-vs-bf16-for-rl.md): 通过 FP16 击败训练-推理不匹配 https://arxiv.org/pdf/2510.26788 表明使用 float16 比 bfloat16 更好
- [内存高效型 RL](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/memory-efficient-rl.md)
- [偏好优化训练 - DPO、ORPO 和 KTO](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/preference-dpo-orpo-and-kto.md): 通过 Unsloth 了解使用 DPO、GRPO、ORPO 或 KTO 进行偏好对齐微调，请按照以下步骤操作：
- [使用 RL 训练 AI 智能体](https://unsloth.ai/docs/zh/kai-shi-shi-yong/reinforcement-learning-rl-guide/training-ai-agents-with-rl.md): 了解如何使用强化学习（RL）训练用于现实世界任务的 AI 智能体。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/zh/kai-shi-shi-yong.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
