flask-gearQwen3.5:微调指南

了解如何使用 Unsloth 微调 Qwen3.5。

您现在可以微调 Qwen3.5 模型系列(27B、35B‑A3B、122B‑A10B、397B‑A17B),使用 Unslotharrow-up-right。支持视觉和文本微调。 Qwen3.5‑35B‑A3B - bf16 LoRA 在 74GB 显存上可用。

显著减少 >35% 显存并且上下文长度约增加 6 倍

vLLM

如果您使用的是旧版本(或在本地微调),请先更新:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

MoE 微调 对于像:

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 这样的 MoE 模型 最好使用 bf16 配置(例如 LoRA 或完整微调)

  • (由于 BitsandBytes 的限制,不建议使用 MoE QLoRA 4-bit)。 Unsloth 的 MoE 内核默认启用并且可以使用不同的后端;您可以通过切换.

  • UNSLOTH_MOE_BACKEND

  • 来更改。 路由层微调默认为禁用以保证稳定性。 Qwen3.5‑122B‑A10B - bf16 LoRA 在 256GB 显存上可用。如果您使用多 GPU,请添加 device_map = "balanced".

或参照我们的

多 GPU 指南 快速入门 下面是一个最简 SFT 配方(适用于“仅文本”微调)。另请参阅我们的

circle-info

视觉微调部分。, Qwen3.5 是“带视觉编码器的因果语言模型”(它是一个统一的 VLM),因此请确保已安装常用的视觉依赖(torchvision

circle-info

dataset_num_proc = 1,

  • trainer.train() 如果出现 OOM: 降低 1 per_device_train_batch_size .

  • 并/或减少 max_seq_length保留use_ gradient_checkpointing

="unsloth"

model_name = "unsloth/Qwen3.5-35B-A3B",

max_seq_length = 2048,

加载后,您将附加 LoRA 适配器并以类似上面 SFT 示例的方式训练。 快速入门 视觉微调 Unsloth 支持 用于多模态 Qwen3.5 模型。您可以阅读/使用我们的

Qwen3-VL 常规 SFT 微调笔记本

Qwen3-VL GRPO/GSPO 强化学习笔记本

"lm_head", "embed_tokens", 为了使用多图像对 Qwen3.5 进行微调或训练,.

请查看我们的

多图像视觉指南 保存 / 导出微调模型, (用于 llama.cpp/Ollama/LM Studio 等)或, 您可以查看我们针对以下平台的具体推理 / 部署指南:, llama.cpp, llama-server Ollama LM Studio.

SGLang

model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")

model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m") model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0") 如果导出的模型在另一个运行时中表现更差,Unsloth 会标记最常见的原因:

推理时使用了错误的聊天模板 / EOS 标记

(您必须使用与训练时相同的聊天模板)。

## 或者上传到 HuggingFace:

model.save_pretrained("finetuned_lora")

## 或者上传到 HuggingFace:

最后更新于

这有帮助吗?