# Qwen3.5 Leitfaden zur Feinabstimmung

Sie können jetzt [Qwen3.5](/docs/de/modelle/qwen3.5.md) Modellfamilie (0,8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) mit [**Unsloth**](https://github.com/unslothai/unsloth) feinabstimmen. Unterstützung umfasst sowohl [Vision-](/docs/de/modelle/qwen3.5/fine-tune.md#vision-fine-tuning) , Text- und [RL](#reinforcement-learning-rl) -Feinabstimmung. **Qwen3.5‑35B‑A3B** - bf16 LoRA funktioniert auf **74 GB VRAM.**

* Unsloth macht das Training von Qwen3.5 **1,5× schneller** und verwendet **50 % weniger VRAM** als FA2-Setups.
* VRAM-Nutzung von Qwen3.5 bf16 LoRA: **0,8B**: 3 GB • **2B**: 5 GB • **4B**: 10 GB • **9B**: 22 GB • **27B**: 56 GB
* Fine-Tuning **0,8B**, **2B** und **4B** bf16 LoRA über unser **kostenlosen** **Google Colab-Notebooks**:

| [Qwen3.5-**0,8B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(0_8B\)_Vision.ipynb) | [Qwen3.5-**2B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(2B\)_Vision.ipynb) | [Qwen3.5-**4B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision.ipynb) | [Qwen3.5-4B **GRPO**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision_GRPO.ipynb) |
| --------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------- |

* Wenn Sie **Schlussfolgerungsfähigkeit** bewahren möchten, können Sie Beispiele im Reasoning-Stil mit direkten Antworten mischen (mindestens 75 % Reasoning beibehalten). Andernfalls können Sie es vollständig ausgeben.
* **Full Fine-Tuning (FFT)** funktioniert ebenfalls. Beachten Sie, dass dabei 4x mehr VRAM verwendet wird.
* Qwen3.5 ist leistungsstark für mehrsprachige Feinabstimmung, da es 201 Sprachen unterstützt.
* Nach dem Fine-Tuning können Sie exportieren nach [GGUF](#saving-export-your-fine-tuned-model) (für llama.cpp/Ollama/usw.) oder [vLLM](#saving-export-your-fine-tuned-model)
* [Reinforcement Learning](/docs/de/loslegen/reinforcement-learning-rl-guide.md) (RL) für Qwen3.5 [VLM RL](/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md) funktioniert ebenfalls über die Unsloth-Inferenz.
* Wir haben **A100** Colab-Notebooks für [Qwen3.5‑27B](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen_3_5_27B_A100\(80GB\).ipynb) und [Qwen3.5‑35B‑A3B](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_MoE.ipynb).

Wenn Sie eine ältere Version verwenden (oder lokal Fine-Tuning durchführen), aktualisieren Sie zuerst:

{% columns %}
{% column %}
Unsloth Studio:

{% code expandable="true" %}

```bash
unsloth studio update
```

{% endcode %}
{% endcolumn %}

{% column %}
Unsloth codebasiert:

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

{% endcolumn %}
{% endcolumns %}

{% hint style="warning" %}
**Bitte verwenden Sie `transformers v5` für Qwen3.5. Ältere Versionen funktionieren nicht. Unsloth verwendet jetzt standardmäßig automatisch transformers v5 (außer in Colab-Umgebungen).**

Wenn das Training **langsamer als gewöhnlich**erscheint, liegt das daran, dass Qwen3.5 benutzerdefinierte Mamba-Triton-Kernels verwendet. Das Kompilieren dieser Kernel kann länger dauern als normal, insbesondere auf T4-GPUs.

Es wird nicht empfohlen, QLoRA-Training (4-bit) auf den Qwen3.5-Modellen durchzuführen, unabhängig davon, ob MoE oder dicht, aufgrund höher als normaler Quantisierungsunterschiede.
{% endhint %}

### MoE-Feinabstimmung (35B, 122B)

Für MoE-Modelle wie **Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B**:

* Sie können unser [Qwen3.5‑35B‑A3B (A100)](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_MoE.ipynb) Feinabstimmungs-Notebook
* Unterstützt unser aktuelles \~12x schnelleres [MoE-Trainings-Update](/docs/de/grundlagen/faster-moe.md) mit >35 % weniger VRAM und \~6x längerem Kontext
* **Am besten bf16-Setups verwenden (z. B. LoRA oder vollständige Feinabstimmung)** (MoE QLoRA 4-bit wird aufgrund von BitsandBytes-Beschränkungen nicht empfohlen).
* Die MoE-Kernel von Unsloth sind standardmäßig aktiviert und können verschiedene Backends verwenden; Sie können mit `UNSLOTH_MOE_BACKEND`.
* wechseln. Das Feinabstimmen der Router-Ebene ist standardmäßig aus Stabilitätsgründen deaktiviert.
* Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert mit 256 GB VRAM. Wenn Sie Multi-GPUs verwenden, fügen Sie     `device_map = "balanced"` hinzu oder folgen Sie unserem [MultiGPU-Leitfaden](/docs/de/grundlagen/multi-gpu-training-with-unsloth.md).

### Schnellstart

#### 🦥 Unsloth Studio-Leitfaden

Qwen3.5 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](/docs/de/neu/studio.md)ausgeführt und feinabgestimmt werden, unserer neuen Open-Source-Weboberfläche für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilende** Tool-Aufrufe](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/971d2affa0419fa18c6abd3931e3386e351b710a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie in Ihrem Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="success" %}
**Die Installation geht schnell und dauert ca. 1–2 Minuten.**
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Qwen3.5 trainieren

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Suchen Sie in der Suchleiste nach Qwen3.5 und wählen Sie Ihr gewünschtes Modell und Dataset aus. Passen Sie anschließend Ihre Hyperparameter und die Kontextlänge nach Wunsch an.

<div data-with-frame="true"><figure><img src="/files/ff8bc18cd744c045c5e13a72c95c306c386b8fb3" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Trainingsfortschritt überwachen

Nachdem Sie auf Training starten geklickt haben, können Sie den Trainingsfortschritt des Modells überwachen und beobachten. Der Trainingsverlust sollte stetig sinken.\
Sobald das Training abgeschlossen ist, wird das Modell automatisch gespeichert.

<div data-with-frame="true"><figure><img src="/files/064356a7f5f7c383b9b997631eb1e72ce0f62bc4" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Ihr feinabgestimmtes Modell exportieren

Sobald der Vorgang abgeschlossen ist, können Sie mit Unsloth Studio das Modell in GGUF-, Safetensor- usw. Formate exportieren.

<div data-with-frame="true"><figure><img src="/files/534373139e0e31da3fdc05897d79715a86d96272" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

#### Unsloth Core (codebasiert) Anleitung:

Unten steht ein minimales SFT-Rezept (funktioniert für „text-only“-Fine-Tuning). Siehe auch unseren [Vision-Fine-Tuning](/docs/de/grundlagen/vision-fine-tuning.md) Abschnitt.

{% hint style="info" %}
Qwen3.5 ist ein „Causal Language Model with Vision Encoder“ (ein einheitliches VLM), also stellen Sie sicher, dass die üblichen Vision-Abhängigkeiten installiert sind (`torchvision`, `pillow`) falls nötig, und halten Sie Transformers auf dem neuesten Stand. Verwenden Sie für Qwen3.5 die neueste Transformers-Version.

**Wenn Sie** [**GRPO**](/docs/de/loslegen/reinforcement-learning-rl-guide.md)**machen möchten, funktioniert es in Unsloth, wenn Sie die schnelle vLLM-Inferenz deaktivieren und stattdessen die Unsloth-Inferenz verwenden. Folgen Sie unseren** [**Vision-RL**](/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md) **Notebook-Beispielen.**
{% endhint %}

{% code expandable="true" %}

```python
from unsloth import FastLanguageModel
import torch
from datasets import load_dataset
from trl import SFTTrainer, SFTConfig

max_seq_length = 2048  # klein anfangen; nach erfolgreichem Test erhöhen

# Beispieldatensatz (durch Ihren ersetzen). Benötigt eine "text"-Spalte.
url = "https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl"
dataset = load_dataset("json", data_files={"train": url}, split="train")

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "Qwen/Qwen3.5-27B",
    max_seq_length = max_seq_length,
    load_in_4bit = False,     # MoE QLoRA nicht empfohlen, dichtes 27B ist in Ordnung
    load_in_16bit = True,     # bf16/16-Bit LoRA
    full_finetuning = False,
)

model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = [
        "q_proj", "k_proj", "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj",
    ],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    # "unsloth"-Checkpointing ist für sehr langen Kontext + geringeren VRAM gedacht
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    max_seq_length = max_seq_length,
)

trainer = SFTTrainer(
    model = model,
    train_dataset = dataset,
    tokenizer = tokenizer,
    args = SFTConfig(
        max_seq_length = max_seq_length,
        per_device_train_batch_size = 1,
        gradient_accumulation_steps = 4,
        warmup_steps = 10,
        max_steps = 100,
        logging_steps = 1,
        output_dir = "outputs_qwen35",
        optim = "adamw_8bit",
        seed = 3407,
        dataset_num_proc = 1,
    ),
)

trainer.train()
```

{% endcode %}

{% hint style="info" %}
Wenn Sie OOM erhalten:

* Reduzieren Sie `per_device_train_batch_size` auf **1** und/oder verringern Sie `max_seq_length`.&#x20;
* Lassen Sie `use_`[`gradient_checkpointing`](/docs/de/blog/500k-context-length-fine-tuning.md#unsloth-gradient-checkpointing-enhancements)`="unsloth"` eingeschaltet (es ist dafür ausgelegt, den VRAM-Verbrauch zu reduzieren und die Kontextlänge zu erweitern).
  {% endhint %}

**Ladebeispiel für MoE (bf16 LoRA):**

```python
import os
import torch
from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3.5-35B-A3B",
    max_seq_length = 2048,
    load_in_4bit = False,     # MoE QLoRA nicht empfohlen, dichtes 27B ist in Ordnung
    load_in_16bit = True,     # bf16/16-Bit LoRA
    full_finetuning = False,
)
```

Sobald es geladen ist, hängen Sie LoRA-Adapter an und trainieren ähnlich wie im obigen SFT-Beispiel.

### Vision-Feinabstimmung

Unsloth unterstützt [Vision-Fine-Tuning](/docs/de/grundlagen/vision-fine-tuning.md) für die multimodalen Qwen3.5-Modelle. Verwenden Sie die untenstehenden Qwen3.5-Notebooks und ändern Sie die entsprechenden Modellnamen in Ihr gewünschtes Qwen3.5-Modell.

| [Qwen3.5-**0,8B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(0_8B\)_Vision.ipynb) | [Qwen3.5-**2B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(2B\)_Vision.ipynb) | [Qwen3.5-**4B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision.ipynb) | Qwen3.5-**9B** |
| --------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | -------------- |

* [Qwen3-VL GRPO/GSPO RL-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_VL_\(8B\)-Vision-GRPO.ipynb) (Modellname auf Qwen3.5-4B usw. ändern)

**Deaktivieren von Vision / reinem Text-Feintuning:**

Um Vision-Modelle feinabzustimmen, können Sie jetzt auswählen, welche Teile des Modells Sie feinabstimmen möchten. Sie können nur die Vision-Layer, nur die Sprach-Layer oder die Attention-/MLP-Layer feinabstimmen! Wir aktivieren standardmäßig alle!

{% code expandable="true" %}

```python
model = FastVisionModel.get_peft_model(
    model,
    finetune_vision_layers     = True, # False, wenn Vision-Layer nicht feinabgestimmt werden
    finetune_language_layers   = True, # False, wenn Sprach-Layer nicht feinabgestimmt werden
    finetune_attention_modules = True, # False, wenn Attention-Layer nicht feinabgestimmt werden
    finetune_mlp_modules       = True, # False, wenn MLP-Layer nicht feinabgestimmt werden

    r = 16,                           # Je größer, desto höher die Genauigkeit, aber möglicherweise Overfitting
    lora_alpha = 16,                  # Empfohlen: alpha == r, mindestens
    lora_dropout = 0,
    bias = "none",
    random_state = 3407,
    use_rslora = False,               # Wir unterstützen rank-stabilisierte LoRA
    loftq_config = None,               # Und LoftQ
    target_modules = "all-linear",    # Jetzt optional! Kann bei Bedarf eine Liste angegeben werden
    modules_to_save=[
        "lm_head",
        "embed_tokens",
    ],
)
```

{% endcode %}

Um Qwen3.5 mit mehreren Bildern feinabzustimmen oder zu trainieren, sehen Sie sich unseren [**Multi-Bild-Vision-Leitfaden**](/docs/de/grundlagen/vision-fine-tuning.md#multi-image-training)**.**

### Verstärkendes Lernen (RL)

Sie können Qwen3.5 jetzt mit RL, GSPO, GRPO usw. trainieren mit [unserem kostenlosen Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision_GRPO.ipynb):

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision_GRPO.ipynb>" %}

Sie können Qwen3.5 RL mit Unsloth ausführen, auch wenn es von vLLM nicht unterstützt wird, indem Sie `fast_inference=False` beim Laden des Modells festlegen:

```python
from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen3.5-4B",
    fast_inference=False,
)
```

### Feinabgestimmtes Modell speichern / exportieren

Sie können unsere speziellen Inferenz-/Bereitstellungsanleitungen einsehen für [Unsloth Studio](/docs/de/neu/studio/export.md), [llama.cpp](/docs/de/grundlagen/inference-and-deployment/saving-to-gguf.md), [vLLM](/docs/de/grundlagen/inference-and-deployment/vllm-guide.md), [llama-server](/docs/de/grundlagen/inference-and-deployment/llama-server-and-openai-endpoint.md), [Ollama](/docs/de/grundlagen/inference-and-deployment/saving-to-ollama.md).

#### In GGUF speichern

Unsloth unterstützt das direkte Speichern in GGUF:

```python
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")
```

Oder pushen Sie GGUFs zu Hugging Face:

```python
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0")
```

Wenn sich das exportierte Modell in einer anderen Laufzeitumgebung schlechter verhält, markiert Unsloth die häufigste Ursache: **falsches Chat-Template / EOS-Token zur Inferenzzeit** (Sie müssen dasselbe Chat-Template verwenden, mit dem Sie trainiert haben).

#### In vLLM speichern

{% hint style="warning" %}
vLLM-Version `0.16.0` unterstützt Qwen3.5 nicht. Warten Sie, bis `0.170` oder versuchen Sie die Nightly-Version.
{% endhint %}

Um für vLLM als 16-Bit zu speichern, verwenden Sie:

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## ODER um auf HuggingFace hochzuladen:
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")
```

{% endcode %}

Um nur die LoRA-Adapter zu speichern, verwenden Sie entweder:

```python
model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")
```

Oder verwenden Sie unsere integrierte Funktion:

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "lora")
## ODER um auf HuggingFace hochzuladen
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")
```

{% endcode %}

Für mehr Details lesen Sie unsere Inferenzleitfäden:

{% columns %}
{% column width="50%" %}
{% content-ref url="/pages/03532de69dfe0230fe5114e809721d8b7dd74ca6" %}
[Inferenz & Bereitstellung](/docs/de/grundlagen/inference-and-deployment.md)
{% endcontent-ref %}

{% content-ref url="/pages/9cfeafb2cc359999e3a7f6ba6ffa5468e4752653" %}
[GGUF & llama.cpp](/docs/de/grundlagen/inference-and-deployment/saving-to-gguf.md)
{% endcontent-ref %}
{% endcolumn %}

{% column width="50%" %}
{% content-ref url="/pages/13c9d0063a9732a68734b74792f3e30153873bf4" %}
[Model Export](/docs/de/neu/studio/export.md)
{% endcontent-ref %}

{% content-ref url="/pages/af094159d1c157db0d9afc00bd98b849fcdb8f0c" %}
[vLLM](/docs/de/grundlagen/inference-and-deployment/vllm-guide.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/qwen3.5/fine-tune.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.