flask-gearQwen3.5 微调指南

学习如何使用 Unsloth 微调 Qwen3.5 LLM。

您现在可以微调 Qwen3.5 模型系列(0.8B、2B、4B、9B、27B、35B‑A3B、122B‑A10B)与 Unslotharrow-up-right。支持包括 视觉、文本和 强化学习 微调。 Qwen3.5‑35B‑A3B ‑ bf16 LoRA 在 74GB 显存上可运行。

  • Unsloth 让 Qwen3.5 训练 快 1.5× 并使用 少 50% 的显存 相比 FA2 设置。

  • Qwen3.5 bf16 LoRA 显存使用: 0.8B:3GB • 2B:5GB • 4B:10GB • 9B:22GB • 27B:56GB

  • 微调 0.8B, 2B 4B 通过我们的 bf16 LoRA 免费 Google Colab 笔记本:

如果您使用的是旧版本(或在本地微调),请先更新:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
circle-exclamation

MoE 微调(35B、122B)

对于像 Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 这样的 MoE 模型:

  • 您可以使用我们的 Qwen3.5‑35B‑A3B(A100)arrow-up-right 微调笔记本

  • 支持我们最近约 12 倍更快的 MoE 训练更新 具有 >35% 更少的显存 & 约 6 倍更长的上下文

  • 最好使用 bf16 配置(例如 LoRA 或完全微调) (由于 BitsandBytes 的限制,不建议使用 MoE QLoRA 4‑bit)。

  • Unsloth 的 MoE 内核默认启用并可以使用不同的后端;您可以使用 UNSLOTH_MOE_BACKEND.

  • 切换。

  • 路由层微调默认出于稳定性而被禁用。 Qwen3.5‑122B‑A10B - bf16 LoRA 在 256GB 显存上可运行。如果您使用多 GPU,添加 device_map = "balanced" 或遵循我们的.

多 GPU 指南

快速入门 下面是一个最小的 SFT 配方(适用于“仅文本”微调)。另请参见我们的 视觉微调

circle-info

部分。Qwen3.5 是“带视觉编码器的因果语言模型”(它是统一的 VLM),因此请确保您已安装常见的视觉依赖项(, torchvisionpillow

)如有需要,并保持 Transformers 为最新。对 Qwen3.5 使用最新的 Transformers。 GRPO如果您想要进行 ,如果您禁用快速 vLLM 推理并改用 Unsloth 推理,它在 Unsloth 中也可行。请参阅我们的 视觉强化学习

circle-info

trainer.train()

  • 如果出现 OOM: 降低 改为 1 per_device_train_batch_size 和/或减少.

  • max_seq_length 保留use_gradient_checkpointing ="unsloth"

开启(它旨在减少显存使用并扩展上下文长度)。

max_seq_length = 2048,

加载后,您将附加 LoRA 适配器并以类似上述 SFT 示例的方式进行训练。

视觉微调 下面是一个最小的 SFT 配方(适用于“仅文本”微调)。另请参见我们的 Unsloth 支持

(将模型名称更改为 Qwen3.5-4B 等)

禁用视觉 / 仅文本微调:

"embed_tokens", 为了使用多图像对 Qwen3.5 进行微调或训练, 请查看我们的.

多图像视觉指南

强化学习(RL) 您现在可以使用 RL、GSPO、GRPO 等对 Qwen3.5 进行训练,使用arrow-up-right:

我们的免费笔记本 您可以在 Unsloth 中运行 Qwen3.5 的强化学习,尽管 vLLM 不支持它,通过设置 fast_inference=False

fast_inference=False,

保存 / 导出微调模型 llama.cpp, 该设置适用于托管提供者、自托管端点、, 要将 Qwen3.5-397B-A17B 部署到生产环境,我们使用, Ollama, LM Studio您可以查看我们针对以下内容的特定推理 / 部署指南:.

SGLang

保存为 GGUF

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")

model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") 如果导出的模型在其他运行时表现更差,Unsloth 会标记最常见的原因: 推理时使用了错误的对话模板 / EOS 标记

(您必须使用与训练时相同的对话模板)。

circle-exclamation

或尝试 Nightly 发行版。

model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

tokenizer.save_pretrained("finetuned_lora")

model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = ""),有关更多细节请阅读我们的推理指南:

最后更新于

这有帮助吗?