Qwen3.5:微调指南
了解如何使用 Unsloth 微调 Qwen3.5。
您现在可以微调 Qwen3.5 模型系列(27B、35B‑A3B、122B‑A10B、397B‑A17B),使用 Unsloth。支持视觉和文本微调。 Qwen3.5‑35B‑A3B - bf16 LoRA 在 74GB 显存上可用。
Qwen3.5‑27B - bf16 LoRA 在 56GB 显存 以及在 28GB
上支持 4-bit QLoRA 支持我们最近约 12 倍更快的 MoE 训练更新
显著减少 >35% 显存并且上下文长度约增加 6 倍
小型号即将推出…… 如果您想 保留推理
能力,您可以将推理风格的示例与直接答案混合(至少保留 75% 的推理)。否则您也可以完全输出直接答案。 微调后,您可以导出为 GGUF (用于 llama.cpp/Ollama/LM Studio 等)或
vLLM
如果您使用的是旧版本(或在本地微调),请先更新:pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
MoE 微调 对于像:
Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 这样的 MoE 模型 最好使用 bf16 配置(例如 LoRA 或完整微调)
(由于 BitsandBytes 的限制,不建议使用 MoE QLoRA 4-bit)。
Unsloth 的 MoE 内核默认启用并且可以使用不同的后端;您可以通过切换.UNSLOTH_MOE_BACKEND
来更改。
路由层微调默认为禁用以保证稳定性。Qwen3.5‑122B‑A10B - bf16 LoRA 在 256GB 显存上可用。如果您使用多 GPU,请添加 device_map = "balanced".
或参照我们的
多 GPU 指南 快速入门 下面是一个最简 SFT 配方(适用于“仅文本”微调)。另请参阅我们的
视觉微调部分。, Qwen3.5 是“带视觉编码器的因果语言模型”(它是一个统一的 VLM),因此请确保已安装常用的视觉依赖(torchvision
dataset_num_proc = 1,
trainer.train()
如果出现 OOM:降低 1 per_device_train_batch_size到.并/或减少
max_seq_length保留use_gradient_checkpointing
="unsloth"
model_name = "unsloth/Qwen3.5-35B-A3B",
max_seq_length = 2048,
加载后,您将附加 LoRA 适配器并以类似上面 SFT 示例的方式训练。 快速入门 视觉微调 Unsloth 支持 用于多模态 Qwen3.5 模型。您可以阅读/使用我们的
Qwen3-VL 常规 SFT 微调笔记本
Qwen3-VL GRPO/GSPO 强化学习笔记本
"lm_head", "embed_tokens", 为了使用多图像对 Qwen3.5 进行微调或训练,.
请查看我们的
多图像视觉指南 保存 / 导出微调模型, (用于 llama.cpp/Ollama/LM Studio 等)或, 您可以查看我们针对以下平台的具体推理 / 部署指南:, llama.cpp, llama-server Ollama LM Studio.
或
SGLang
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m") model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") 如果导出的模型在另一个运行时中表现更差,Unsloth 会标记最常见的原因:
推理时使用了错误的聊天模板 / EOS 标记
(您必须使用与训练时相同的聊天模板)。
## 或者上传到 HuggingFace:
model.save_pretrained("finetuned_lora")
## 或者上传到 HuggingFace:
最后更新于
这有帮助吗?

