Qwen3.5 微调指南
学习如何使用 Unsloth 微调 Qwen3.5 系列模型。
您现在可以微调 Qwen3.5 模型系列(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B),使用 Unsloth。支持包括 视觉 和文本微调。 Qwen3.5‑35B‑A3B - bf16 LoRA 在 74GB 显存上可运行。
Unsloth 使 Qwen3.5 训练 快 1.5× 并且使用 少 50% 的显存 相比 FA2 配置。
Qwen3.5 bf16 LoRA 显存使用: 0.8B: 3GB • 2B: 5GB • 4B: 10GB • 9B: 22GB • 27B: 56GB
微调 0.8B, 2B 和 4B 通过我们的 bf16 LoRA 免费 Google Colab 笔记本:
如果您想要 保留推理 能力,您可以将推理风格示例与直接答案混合(保持至少 75% 为推理)。否则您可以完全省略它。
完整微调(FFT) 也可行。注意它将使用 4 倍更多显存。
Qwen3.5 在多语言微调方面很强大,支持 201 种语言。
用于 Qwen3.5 的强化学习 (RL) VLM 强化学习 也可以通过 Unsloth 推理工作。
我们有 A100 用于 Qwen3.5‑27B 的 Colab 笔记本 和 Qwen3.5‑35B‑A3B.
如果您使用的是较旧版本(或在本地微调),请先更新:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo请使用 transformers v5 用于 Qwen3.5。旧版本将无法工作。Unsloth 现在默认会自动使用 transformers v5(Colab 环境除外)。
如果训练看起来 比平常慢,这是因为 Qwen3.5 使用自定义的 Mamba Triton 内核。编译这些内核可能比正常情况花费更长时间,尤其是在 T4 GPU 上。
不建议在 Qwen3.5 模型上进行 QLoRA(4-bit)训练,无论是 MoE 还是密集模型,因量化差异高于正常水平。
MoE 微调(35B、122B)
对于像 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 这样的 MoE 模型,:
您可以使用我们的 Qwen3.5‑35B‑A3B(A100) 微调笔记本,
支持我们最近约 12 倍更快的 MoE 训练更新, 使用 >35% 更少的显存 & 约 6 倍更长的上下文长度,
最好使用 bf16 配置(例如 LoRA 或完整微调), (由于 BitsandBytes 的限制,不建议使用 MoE QLoRA 4‑bit)。
Unsloth 的 MoE 内核默认启用并可使用不同后端;您可以通过
UNSLOTH_MOE_BACKEND.切换。路由层微调为稳定性默认禁用。
Qwen3.5‑122B‑A10B - bf16 LoRA 在 256GB 显存上可运行。如果您使用多 GPU,请添加
device_map = "balanced"或遵循我们的 multiGPU 指南.
快速入门,
下面是一个最小的 SFT 配方(适用于“仅文本”微调)。另请参阅我们的 视觉微调 部分。
如果发生 OOM:
降低
per_device_train_batch_size到 1 并/或减少max_seq_length.保留
use_gradient_checkpointing="unsloth"开启(它旨在减少显存使用并延长上下文长度)。
MoE(bf16 LoRA)加载器示例:
加载后,您将附加 LoRA 适配器并以类似于上述 SFT 示例的方式进行训练。
视觉微调
Unsloth 支持 视觉微调 多模态 Qwen3.5 模型的微调。使用下面的 Qwen3.5 笔记本并将相应的模型名称更改为您想要的 Qwen3.5 模型。
Qwen3-VL GRPO/GSPO 强化学习 笔记本, (将模型名称更改为 Qwen3.5-4B 等)
禁用视觉 / 仅文本微调:
为了微调视觉模型,我们现在允许您选择要微调的模型部分。您可以选择仅微调视觉层,或语言层,或注意力 / MLP 层!我们默认都开启!
为了使用多图像对 Qwen3.5 进行微调或训练, 请查看我们的 多图像视觉指南.
保存 / 导出微调模型
您可以查看我们针对以下内容的具体推理 / 部署指南: llama.cpp, vLLM, llama-server, Ollama, LM Studio 或 SGLang.
保存为 GGUF
Unsloth 支持直接保存为 GGUF:
或将 GGUF 推送到 Hugging Face:
如果导出的模型在另一个运行时表现更差,Unsloth 会标记最常见的原因: 推理时错误的聊天模板 / EOS 标记 (您必须使用与训练时相同的聊天模板)。
保存为 vLLM
vLLM 版本 0.16.0 不支持 Qwen3.5。请等待 0.170 或尝试 Nightly 版本。
要保存为 vLLM 的 16 位,请使用:
要仅保存 LoRA 适配器,可使用:
或使用我们的内置函数:
欲了解更多详情,请阅读我们的推理指南:
最后更新于
这有帮助吗?

