flask-gearQwen3.5 微调指南

学习如何使用 Unsloth 微调 Qwen3.5 系列模型。

您现在可以微调 Qwen3.5 模型系列(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B),使用 Unslotharrow-up-right。支持包括 视觉 和文本微调。 Qwen3.5‑35B‑A3B - bf16 LoRA 在 74GB 显存上可运行。

  • Unsloth 使 Qwen3.5 训练 快 1.5× 并且使用 少 50% 的显存 相比 FA2 配置。

  • Qwen3.5 bf16 LoRA 显存使用: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB

  • 微调 0.8B, 2B 4B 通过我们的 bf16 LoRA 免费 Google Colab 笔记本:

如果您使用的是较旧版本(或在本地微调),请先更新:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

MoE 微调(35B、122B)

对于像 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 这样的 MoE 模型,:

  • 您可以使用我们的 Qwen3.5‑35B‑A3B(A100)arrow-up-right 微调笔记本,

  • 支持我们最近约 12 倍更快的 MoE 训练更新, 使用 >35% 更少的显存 & 约 6 倍更长的上下文长度,

  • 最好使用 bf16 配置(例如 LoRA 或完整微调), (由于 BitsandBytes 的限制,不建议使用 MoE QLoRA 4‑bit)。

  • Unsloth 的 MoE 内核默认启用并可使用不同后端;您可以通过 UNSLOTH_MOE_BACKEND.

  • 切换。路由层微调为稳定性默认禁用。

  • Qwen3.5‑122B‑A10B - bf16 LoRA 在 256GB 显存上可运行。如果您使用多 GPU,请添加 device_map = "balanced" 或遵循我们的 multiGPU 指南.

快速入门,

下面是一个最小的 SFT 配方(适用于“仅文本”微调)。另请参阅我们的 视觉微调 部分。

circle-info

Qwen3.5 是“带视觉编码器的因果语言模型”(它是一个统一的 VLM),因此请确保已安装常见的视觉依赖(torchvision, pillow)(如有需要),并保持 Transformers 为最新。对 Qwen3.5 使用最新的 Transformers。

如果您想做 GRPO,在 Unsloth 中可行,前提是您禁用快速 vLLM 推理并改用 Unsloth 推理。请参阅我们的 视觉强化学习 笔记本示例。

circle-info

如果发生 OOM:

  • 降低 per_device_train_batch_size1 并/或减少 max_seq_length.

  • 保留 use_gradient_checkpointing="unsloth" 开启(它旨在减少显存使用并延长上下文长度)。

MoE(bf16 LoRA)加载器示例:

加载后,您将附加 LoRA 适配器并以类似于上述 SFT 示例的方式进行训练。

视觉微调

Unsloth 支持 视觉微调 多模态 Qwen3.5 模型的微调。使用下面的 Qwen3.5 笔记本并将相应的模型名称更改为您想要的 Qwen3.5 模型。

禁用视觉 / 仅文本微调:

为了微调视觉模型,我们现在允许您选择要微调的模型部分。您可以选择仅微调视觉层,或语言层,或注意力 / MLP 层!我们默认都开启!

为了使用多图像对 Qwen3.5 进行微调或训练, 请查看我们的 多图像视觉指南.

保存 / 导出微调模型

您可以查看我们针对以下内容的具体推理 / 部署指南: llama.cpp, vLLM, llama-server, Ollama, LM StudioSGLang.

保存为 GGUF

Unsloth 支持直接保存为 GGUF:

或将 GGUF 推送到 Hugging Face:

如果导出的模型在另一个运行时表现更差,Unsloth 会标记最常见的原因: 推理时错误的聊天模板 / EOS 标记 (您必须使用与训练时相同的聊天模板)。

保存为 vLLM

circle-exclamation

要保存为 vLLM 的 16 位,请使用:

要仅保存 LoRA 适配器,可使用:

或使用我们的内置函数:

欲了解更多详情,请阅读我们的推理指南:

最后更新于

这有帮助吗?