Qwen3.5 微调指南
学习如何使用 Unsloth 微调 Qwen3.5 LLM。
您现在可以微调 Qwen3.5 模型系列(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)与 Unsloth。支持包括 视觉、文本和 强化学习 微调。 Qwen3.5‑35B‑A3B ‑ bf16 LoRA 在 74GB 显存上可运行。
Unsloth 让 Qwen3.5 训练 快 1.5× 并使用 少 50% 的显存 相比 FA2 设置。
Qwen3.5 bf16 LoRA 显存使用: 0.8B:3GB • 2B:5GB • 4B:10GB • 9B:22GB • 27B:56GB
微调 0.8B, 2B 和 4B 通过我们的 bf16 LoRA 免费 Google Colab 笔记本:
如果您想要 保留推理 能力,您可以将推理风格的示例与直接答案混合(保持至少 75% 的推理)。否则您可以完全省略它。
完全微调(FFT) 也可以。注意它将使用 4 倍更多显存。
Qwen3.5 在多语种微调方面很强大,因为它支持 201 种语言。
微调后,您可以导出到 GGUF (用于 llama.cpp/Ollama/LM Studio/等)或 该设置适用于托管提供者、自托管端点、
我们有 A100 Colab 笔记本用于 Qwen3.5‑27B 和 Qwen3.5‑35B‑A3B.
如果您使用的是旧版本(或在本地微调),请先更新:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo请使用 transformers v5 用于 Qwen3.5。旧版本将无法工作。Unsloth 现在默认会自动使用 transformers v5(Colab 环境除外)。
如果训练看起来 比平常慢,那是因为 Qwen3.5 使用定制的 Mamba Triton 内核。编译这些内核可能比正常情况花费更长时间,尤其是在 T4 GPU 上。
不建议对 Qwen3.5 模型进行 QLoRA(4-bit)训练,无论是 MoE 还是密集模型,原因是量化差异比平常更大。
MoE 微调(35B、122B)
对于像 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 这样的 MoE 模型:
您可以使用我们的 Qwen3.5‑35B‑A3B(A100) 微调笔记本
支持我们最近约 12 倍更快的 MoE 训练更新 具有 >35% 更少的显存 & 约 6 倍更长的上下文
最好使用 bf16 配置(例如 LoRA 或完全微调) (由于 BitsandBytes 的限制,不建议使用 MoE QLoRA 4‑bit)。
Unsloth 的 MoE 内核默认启用并可以使用不同的后端;您可以使用
UNSLOTH_MOE_BACKEND.切换。
路由层微调默认出于稳定性而被禁用。
Qwen3.5‑122B‑A10B - bf16 LoRA 在 256GB 显存上可运行。如果您使用多 GPU,添加device_map = "balanced" 或遵循我们的.
多 GPU 指南
快速入门 下面是一个最小的 SFT 配方(适用于“仅文本”微调)。另请参见我们的 视觉微调
部分。Qwen3.5 是“带视觉编码器的因果语言模型”(它是统一的 VLM),因此请确保您已安装常见的视觉依赖项(, torchvisionpillow
)如有需要,并保持 Transformers 为最新。对 Qwen3.5 使用最新的 Transformers。 GRPO如果您想要进行 ,如果您禁用快速 vLLM 推理并改用 Unsloth 推理,它在 Unsloth 中也可行。请参阅我们的 视觉强化学习
trainer.train()
如果出现 OOM:
降低改为 1 per_device_train_batch_size和/或减少.max_seq_length
保留use_gradient_checkpointing="unsloth"
开启(它旨在减少显存使用并扩展上下文长度)。
max_seq_length = 2048,
加载后,您将附加 LoRA 适配器并以类似上述 SFT 示例的方式进行训练。
视觉微调 下面是一个最小的 SFT 配方(适用于“仅文本”微调)。另请参见我们的 Unsloth 支持
用于多模态 Qwen3.5 模型。使用下面的 Qwen3.5 笔记本并将相应的模型名称更改为您希望的 Qwen3.5 模型。 Qwen3-VL GRPO/GSPO 强化学习 笔记本
(将模型名称更改为 Qwen3.5-4B 等)
禁用视觉 / 仅文本微调:
"embed_tokens", 为了使用多图像对 Qwen3.5 进行微调或训练, 请查看我们的.
多图像视觉指南
强化学习(RL) 您现在可以使用 RL、GSPO、GRPO 等对 Qwen3.5 进行训练,使用:
我们的免费笔记本 您可以在 Unsloth 中运行 Qwen3.5 的强化学习,尽管 vLLM 不支持它,通过设置 fast_inference=False
fast_inference=False,
保存 / 导出微调模型 llama.cpp, 该设置适用于托管提供者、自托管端点、, 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用, Ollama, LM Studio 或 您可以查看我们针对以下内容的特定推理 / 部署指南:.
SGLang
保存为 GGUF
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") 如果导出的模型在其他运行时表现更差,Unsloth 会标记最常见的原因: 推理时使用了错误的对话模板 / EOS 标记
(您必须使用与训练时相同的对话模板)。
保存为 vLLM 0.16.0 vLLM 版本 0.170 不支持 Qwen3.5。等待
或尝试 Nightly 发行版。
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")
tokenizer.save_pretrained("finetuned_lora")
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = ""),有关更多细节请阅读我们的推理指南:
最后更新于
这有帮助吗?

