🌠Qwen3 - 如何运行与微调

学习如何使用 Unsloth 和我们的 Dynamic 2.0 量化器在本地运行与微调 Qwen3。

Qwen 的新 Qwen3 模型在推理、遵循指令、智能体能力和多语言支持方面带来最先进的进展。

新品！ Qwen3 于 2025 年 7 月进行了更新。运行并微调最新模型： Qwen-2507

所有上传均使用 Unsloth Dynamic 2.0 在 SOTA 的 5-shot MMLU 和 KL 散度性能方面表现卓越，这意味着您可以在精度损失最小的情况下运行并微调量化的 Qwen 大语言模型。

我们还上传了原生 128K 上下文长度的 Qwen3。Qwen 通过使用 YaRN 将其原始 40K 窗口扩展到 128K 来实现这一点。

Unsloth 现在也支持微调和强化学习 (RL) 针对 Qwen3 和 Qwen3 MOE 模型——速度提高 2 倍，显存减少 70%，上下文长度延长 8 倍。使用我们的免费 Colab 笔记本即可微调 Qwen3（14B）。

运行 Qwen3 教程微调 Qwen3

Qwen3 - Unsloth Dynamic 2.0 使用最佳配置：

Dynamic 2.0 GGUF（用于运行）

128K 上下文 GGUF

Dynamic 4-bit Safetensor（用于微调/部署）

🖥️ 运行 Qwen3

要实现每秒 6+ 代币的推理速度，我们建议可用内存应与您使用的模型大小相匹配或更大。例如，一个 30GB 的 1-bit 量化模型至少需要 150GB 内存。Q2_K_XL 量化模型为 180GB，将至少需要 180GB 的统一内存 （显存 + 内存）或 180GB 的 RAM 以获得最佳性能。

注意： 可以用 少于模型大小的总内存 （即更少的显存、更少的 RAM，或更低的总和）。然而，这会导致更慢的推理速度。仅当您希望最大化吞吐量并实现最快推理时间时，才需要充足的内存。

⚙️ 官方推荐设置

根据 Qwen，以下是推理的推荐设置：

非思考模式设置：

思考模式设置：

温度 = 0.7

Temperature = 0.6

Min_P = 0.0（可选，但 0.01 表现良好，llama.cpp 的默认是 0.1）

Min_P = 0.0

Top_P = 0.8

Top_P = 0.95

TopK = 20

聊天模板/提示格式：

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n

对于非思考模式，我们特意将 <think> 和 </think> 之间留空：

<|im_start|>user\nWhat is 2+2?<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n

对于思考模式，切勿使用贪婪解码，因为这可能导致性能下降和无休止的重复。

在思考模式和非思考模式之间切换

Qwen3 模型内置“思考模式”以增强推理并提高回答质量——类似于 QwQ-32B 的工作方式。切换的指令会根据您使用的推理引擎不同而不同，因此请确保使用正确的说明。

llama.cpp 和 Ollama 的说明：

您可以添加 /think 和 /no_think 到用户提示或系统消息中，以便在多轮对话中从一轮切换到下一轮时切换模型的思考模式。模型将遵循多轮对话中最近的指令。

下面是一个多轮对话的示例：

> Who are you /no_think

<think>

</think>

我叫 Qwen，是阿里云开发的大规模语言模型。[…]

> How many 'r's are in 'strawberries'? /think

<think>
好的，让我们来看。用户在问单词 "strawberries" 中字母 'r' 出现了多少次。[…]
</think>

单词 strawberries 中包含 3 个字母 r。[…]

transformers 和 vLLM 的说明：

思考模式：

enable_thinking=True

默认情况下，Qwen3 已启用思考。当您调用 tokenizer.apply_chat_template时， 您无需手动设置任何内容。

text = tokenizer.apply_chat_template(
    def unsloth_inference(
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # 默认为 True
)

在思考模式中，模型将在最终答案之前生成一个额外的 <think>...</think> 块——这使它可以“计划”并优化回答。

非思考模式：

enable_thinking=False

启用非思考将使 Qwen3 跳过所有思考步骤，表现得像普通的 LLM。

text = tokenizer.apply_chat_template(
    def unsloth_inference(
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 禁用思考模式
)

该模式将直接提供最终回答——没有 <think> 块，也没有思维链。

🦙 Ollama：运行 Qwen3 教程

安装 ollama 如果您还没有运行！您只能运行最大到 32B 的模型。要运行完整的 235B-A22B 模型，请参阅这里.

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

运行模型！注意如果失败，您可以在另一个终端中调用 ollama serve我们在 Hugging Face 上传中包含了所有修复和建议参数（如 temperature 等），位于 params 中！

ollama run hf.co/unsloth/Qwen3-8B-GGUF:UD-Q4_K_XL

要禁用思考，请使用（或您可以在系统提示中设置）：

>>> 在此处写入您的提示 /nothink

如果您遇到任何循环问题，Ollama 可能已将您的上下文窗口长度设置为约 2048。如果是这种情况，请将其调高到 32,000 并查看问题是否仍然存在。

📖 Llama.cpp：运行 Qwen3 教程

获取最新的 llama.cpp 在此处的 GitHub。您也可以按照下面的构建说明进行。若 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认启用。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ）。您可以选择 Q4_K_M 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-14B-GGUF",
    local_dir = "unsloth/Qwen3-14B-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

运行模型并尝试任意提示。

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-14B-GGUF/Qwen3-14B-UD-Q2_K_XL.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    -no-cnv

要禁用思考，请使用（或您可以在系统提示中设置）：

>>> 在此处写入您的提示 /nothink

运行 Qwen3-235B-A22B

对于 Qwen3-235B-A22B，我们将专门使用 Llama.cpp 来进行优化推理并提供大量选项。

我们遵循与上面类似的步骤，但这次由于模型非常大，还需要执行额外步骤。

通过以下方式下载模型（在安装 pip install huggingface_hub hf_transfer ）。你可以选择 UD-Q2_K_XL 或其他量化版本。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

运行模型并尝试任意提示。
编辑 --threads 32 用于设置 CPU 线程数， --ctx-size 16384 用于上下文长度， --n-gpu-layers 99 用于指定将多少层卸载到 GPU。若 GPU 出现内存不足，请尝试调整它。若仅使用 CPU 推理，请移除此项。

使用 -ot ".ffn_.*_exps.=CPU" 将所有 MoE 层卸载到 CPU！这实际上允许您将所有非 MoE 层放在一块 GPU 上，从而提高生成速度。如果您有更多 GPU 容量，可以自定义正则表达式以卸载更多层。

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-GGUF/Qwen3-235B-A22B-UD-Q2_K_XL.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    -no-cnv \
    --prompt "<|im_start|>user\nCreate a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<|im_end|>\n<|im_start|>assistant\n"

🦥 使用 Unsloth 对 Qwen3 进行微调

Unsloth 使 Qwen3 的微调速度提高 2 倍，显存使用减少 70%，并支持 8 倍更长的上下文长度。Qwen3（14B）可以舒适地运行在具有 16GB 显存的 Google Colab Tesla T4 GPU 上。

因为 Qwen3 同时支持有推理和无推理，你可以用无推理的数据集来微调它，但这可能会影响其推理能力。如果你想保留它的推理能力（可选），可以使用直接回答与思维链示例的混合。使用 75% 推理和 25% 非推理在您的数据集中，使模型保留其推理能力。

我们的会话笔记本使用 75% NVIDIA 的开放数学推理数据集和 25% Maxime 的 FineTome 数据集（无推理）的组合。以下是用于微调 Qwen3 的免费 Unsloth Colab 笔记本：

Qwen3（14B）推理 + 会话笔记本（推荐）
Qwen3（4B） - 高级 GRPO LoRA
Qwen3（14B）Alpaca 笔记本（用于基础模型）

如果你使用的是旧版本 Unsloth 和/或在本地进行微调，请安装最新版本的 Unsloth：

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Qwen3 MOE 模型微调

微调支持包括我们新的 2026 年更快的 MOE 更新：30B-A3B 和 235B-A22B。Qwen3-30B-A3B 在 Unsloth 上只需 17.5GB 显存即可运行。在微调 MoE 时——通常不建议微调路由器层，因此我们默认禁用它。

30B-A3B 可以放入 17.5GB 显存，但您可能缺乏 RAM 或磁盘空间，因为必须下载完整的 16-bit 模型并在运行时转换为 4-bit 以进行 QLoRA 微调。这是由于无法直接导入 4-bit BnB MOE 模型的问题。此问题仅影响 MOE 模型。

from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B",
    max_seq_length = 2048, # 可为长上下文选择任意值！
    load_in_4bit = True,  # 使用 4-bit 量化以减少内存
    load_in_8bit = False, # [新！] 精度略好，使用 2 倍内存
    full_finetuning = False, # [新！] 我们现在有全量微调！
    # token = "hf_...", # 如果使用受限模型则使用
)

笔记本指南：

要使用这些笔记本，只需点击 Runtime，然后 Run all。您可以在笔记本中将设置更改为您想要的任何值。我们已默认自动设置它们。通过将模型名称与 Hugging Face 上模型的名称匹配（例如 'unsloth/Qwen3-8B' 或 'unsloth/Qwen3-0.6B-unsloth-bnb-4bit'），来更改模型名称为您想要的。

还有其他可切换的设置：

max_seq_length = 2048 – 控制上下文长度。虽然 Qwen3 支持 40960，但我们建议测试时使用 2048。Unsloth 支持 8× 更长上下文的微调。
load_in_4bit = True – 启用 4-bit 量化，在 16GB GPU 上微调时可将内存使用减少 4 倍。
对于 完全微调 - 设置 full_finetuning = True 和 8-bit 微调 - 设置 load_in_8bit = True

如果您想阅读关于如何使用 Unsloth 笔记本进行端到端微调或仅了解微调、创建数据集等的完整指南，请查看我们的完整指南在此处:

🧬Fine-tuning Guide 📈数据集指南

Qwen3 上的 GRPO

我们为微调 Qwen3 制作了一个新的高级 GRPO 笔记本。学习使用我们新的基于接近度的奖励函数（更接近的答案 = 得到奖励）和 Hugging Face 的 Open-R1 数学数据集。 Unsloth 现在也具有更好的评估并使用最新版本的 vLLM。

Qwen3（4B） 笔记本 - 高级 GRPO LoRA

了解：

在 Qwen3（基础模型）中启用推理并引导其执行特定任务
在 GRPO 学习格式化倾向之前进行预微调
通过新的正则匹配提高评估准确性
超出仅 'think' 的自定义 GRPO 模板，例如 <start_working_out></end_working_out>
基于接近度的评分：更好的答案获得更多分数（例如，预测 9 而正确答案为 10），并对离群值施加惩罚

上一页Long Context gpt-oss 下一页Qwen3-VL

最后更新于4天前

这有帮助吗？

hashtagQwen3 - Unsloth Dynamic 2.0 使用最佳配置：

hashtag🖥️ 运行 Qwen3

hashtag⚙️ 官方推荐设置

hashtag在思考模式和非思考模式之间切换

hashtagllama.cpp 和 Ollama 的说明：

hashtagtransformers 和 vLLM 的说明：

hashtag🦙 Ollama：运行 Qwen3 教程

hashtag📖 Llama.cpp：运行 Qwen3 教程

hashtag运行 Qwen3-235B-A22B

hashtag🦥 使用 Unsloth 对 Qwen3 进行微调

hashtagQwen3 MOE 模型微调

hashtag笔记本指南：

hashtagQwen3 上的 GRPO

Qwen3 - Unsloth Dynamic 2.0 使用最佳配置：

🖥️ 运行 Qwen3

⚙️ 官方推荐设置

在思考模式和非思考模式之间切换

llama.cpp 和 Ollama 的说明：

transformers 和 vLLM 的说明：

🦙 Ollama：运行 Qwen3 教程

📖 Llama.cpp：运行 Qwen3 教程

运行 Qwen3-235B-A22B

🦥 使用 Unsloth 对 Qwen3 进行微调

Qwen3 MOE 模型微调

笔记本指南：

Qwen3 上的 GRPO