> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/qwen3.5/fine-tune.md).

# Qwen3.5-Anleitung zur Feinabstimmung

Du kannst jetzt [Qwen3.5](/docs/de/modelle/qwen3.5.md) Modellfamilie (0,8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B) mit [**Unsloth**](https://github.com/unslothai/unsloth)feinabstimmen. Unterstützt werden sowohl [Vision](/docs/de/modelle/qwen3.5/fine-tune.md#vision-fine-tuning)- als auch Text- und [RL](#reinforcement-learning-rl) -Feinabstimmung. **Qwen3.5‑35B‑A3B** - bf16 LoRA funktioniert auf **74 GB VRAM.**

* Unsloth macht das Training von Qwen3.5 **1,5× schneller** und nutzt **50 % weniger VRAM** als FA2-Setups.
* VRAM-Nutzung für Qwen3.5 bf16 LoRA: **0,8B**: 3 GB • **2B**: 5 GB • **4B**: 10 GB • **9B**: 22 GB • **27B**: 56 GB
* Feinabstimmen **0,8B**, **2B** und **4B** bf16 LoRA über unsere **kostenlosen** **Google Colab-Notebooks**:

| [Qwen3.5-**0,8B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(0_8B\)_Vision.ipynb) | [Qwen3.5-**2B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(2B\)_Vision.ipynb) | [Qwen3.5-**4B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision.ipynb) | [Qwen3.5-4B **GRPO**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision_GRPO.ipynb) |
| --------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------- |

* Wenn du **Schlussfolgern erhalten** möchtest, kannst du Beispiele im Stil des Schlussfolgerns mit direkten Antworten mischen (mindestens 75 % Schlussfolgern beibehalten). Andernfalls kannst du es vollständig ausgeben.
* **Full Fine-Tuning (FFT)** funktioniert ebenfalls. Beachte, dass es 4x mehr VRAM verwendet.
* Qwen3.5 ist leistungsstark für mehrsprachige Feinabstimmung, da es 201 Sprachen unterstützt.
* Nach der Feinabstimmung kannst du exportieren nach [GGUF](#saving-export-your-fine-tuned-model) (für llama.cpp/Ollama/usw.) oder [vLLM](#saving-export-your-fine-tuned-model)
* [Reinforcement Learning](/docs/de/loslegen/reinforcement-learning-rl-guide.md) (RL) für Qwen3.5 [VLM-RL](/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md) funktioniert auch über die Unsloth-Inferenz.
* Wir haben **A100** Colab-Notebooks für [Qwen3.5‑27B](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen_3_5_27B_A100\(80GB\).ipynb) und [Qwen3.5‑35B‑A3B](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_MoE.ipynb).

Wenn du eine ältere Version verwendest (oder lokal feinabstimmst), aktualisiere zuerst:

{% columns %}
{% column width="50%" %}
Unsloth Studio:

{% code expandable="true" %}

```bash
unsloth studio update
```

{% endcode %}
{% endcolumn %}

{% column width="50%" %}
Unsloth codebasiert:

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

{% endcolumn %}
{% endcolumns %}

{% hint style="warning" %}
**Bitte verwende `transformers v5` für Qwen3.5. Ältere Versionen funktionieren nicht. Unsloth verwendet jetzt standardmäßig automatisch transformers v5 (außer in Colab-Umgebungen).**

Wenn das Training **langsamer als üblich**erscheint, liegt das daran, dass Qwen3.5 benutzerdefinierte Mamba-Triton-Kernel verwendet. Das Kompilieren dieser Kernel kann länger dauern als normal, besonders auf T4-GPUs.

Es wird nicht empfohlen, QLoRA-Training (4-Bit) auf den Qwen3.5-Modellen durchzuführen, unabhängig davon, ob MoE oder dicht, aufgrund stärker als normaler Quantisierungsunterschiede.
{% endhint %}

### MoE-Fine-Tuning (35B, 122B)

Für MoE-Modelle wie **Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B**:

* kannst du unser [Qwen3.5‑35B‑A3B (A100)](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_MoE.ipynb) Feinabstimmungs-Notebook
* nutzen. Unterstützt unser jüngstes \~12x schnelleres [MoE-Trainings-Update](/docs/de/grundlagen/faster-moe.md) mit >35 % weniger VRAM und \~6x längerem Kontext
* **Am besten bf16-Setups verwenden (z. B. LoRA oder Full Fine-Tuning)** (MoE QLoRA 4‑Bit wird aufgrund von BitsandBytes-Einschränkungen nicht empfohlen).
* Die MoE-Kernel von Unsloth sind standardmäßig aktiviert und können verschiedene Backends verwenden; du kannst wechseln mit `UNSLOTH_MOE_BACKEND`.
* Das Feinabstimmen der Router-Schicht ist standardmäßig aus Stabilitätsgründen deaktiviert.
* Qwen3.5‑122B‑A10B - bf16 LoRA funktioniert auf 256 GB VRAM. Wenn du Multi-GPUs verwendest, füge hinzu     `device_map = "balanced"` oder folge unserem [MultiGPU-Leitfaden](/docs/de/grundlagen/multi-gpu-training-with-unsloth.md).

### Schnellstart

#### 🦥 Unsloth Studio-Leitfaden

Qwen3.5 kann ausgeführt und feinabgestimmt werden in [Unsloth Studio](/docs/de/neu/studio.md)unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio kannst du Modelle lokal ausführen auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilende** Tool-Aufrufe](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameterabstimmung (Temp, Top-p usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/971d2affa0419fa18c6abd3931e3386e351b710a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Im Terminal ausführen:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="success" %}
**Die Installation geht schnell und dauert ca. 1–2 Min.**
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Öffnen Sie dann `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Qwen3.5 trainieren

Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden. Danach siehst du einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen.

Suche in der Suchleiste nach Qwen3.5 und wähle dein gewünschtes Modell und den Datensatz aus. Passe anschließend deine Hyperparameter und die Kontextlänge nach Wunsch an.

<div data-with-frame="true"><figure><img src="/files/ff8bc18cd744c045c5e13a72c95c306c386b8fb3" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Trainingsfortschritt überwachen

Nachdem du auf Training starten geklickt hast, kannst du den Trainingsfortschritt des Modells überwachen und beobachten. Der Trainingsverlust sollte stetig abnehmen.\
Sobald der Vorgang abgeschlossen ist, wird das Modell automatisch gespeichert.

<div data-with-frame="true"><figure><img src="/files/064356a7f5f7c383b9b997631eb1e72ce0f62bc4" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Feinabgestimmtes Modell exportieren

Sobald fertig, ermöglicht dir Unsloth Studio, das Modell in GGUF-, Safetensor- usw\.-Formate zu exportieren.

<div data-with-frame="true"><figure><img src="/files/534373139e0e31da3fdc05897d79715a86d96272" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

#### Unsloth Core (codebasiert) Leitfaden:

Unten ist ein minimales SFT-Rezept (funktioniert für „nur Text“-Feinabstimmung). Siehe auch unseren [Vision-Feinabstimmungs](/docs/de/grundlagen/vision-fine-tuning.md) Abschnitt.

{% hint style="info" %}
Qwen3.5 ist ein „Causal Language Model with Vision Encoder“ (es ist ein vereinheitlichtes VLM), also stelle sicher, dass die üblichen Vision-Abhängigkeiten installiert sind (`torchvision`, `pillow`) falls nötig, und halte Transformers auf dem neuesten Stand. Verwende die neueste Transformers-Version für Qwen3.5.

**Wenn du** [**GRPO**](/docs/de/loslegen/reinforcement-learning-rl-guide.md)**möchtest, funktioniert es in Unsloth, wenn du die schnelle vLLM-Inferenz deaktivierst und stattdessen die Unsloth-Inferenz verwendest. Folge unseren** [**Vision-RL**](/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md) **Notebook-Beispielen.**
{% endhint %}

{% code expandable="true" %}

```python
from unsloth import FastLanguageModel
import torch
from datasets import load_dataset
from trl import SFTTrainer, SFTConfig

max_seq_length = 2048  # zunächst klein anfangen; nach erfolgreichem Test erhöhen

# Beispiel-Datensatz (ersetze durch deinen). Benötigt eine "text"-Spalte.
url = "https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl"
dataset = load_dataset("json", data_files={"train": url}, split="train")

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "Qwen/Qwen3.5-27B",
    max_seq_length = max_seq_length,
    load_in_4bit = False,     # MoE QLoRA nicht empfohlen, dichtes 27B ist in Ordnung
    load_in_16bit = True,     # bf16/16-Bit LoRA
    full_finetuning = False,
)

model = FastLanguageModel.get_peft_model(
    model,
    r = 16,
    target_modules = [
        "q_proj", "k_proj", "v_proj", "o_proj",
        "gate_proj", "up_proj", "down_proj",
    ],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    # "unsloth"-Checkpointing ist für sehr langen Kontext + geringeren VRAM gedacht
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    max_seq_length = max_seq_length,
)

trainer = SFTTrainer(
    model = model,
    train_dataset = dataset,
    tokenizer = tokenizer,
    args = SFTConfig(
        max_seq_length = max_seq_length,
        per_device_train_batch_size = 1,
        gradient_accumulation_steps = 4,
        warmup_steps = 10,
        max_steps = 100,
        logging_steps = 1,
        output_dir = "outputs_qwen35",
        optim = "adamw_8bit",
        seed = 3407,
        dataset_num_proc = 1,
    ),
)

trainer.train()
```

{% endcode %}

{% hint style="info" %}
Wenn du OOM bekommst:

* Reduziere `per_device_train_batch_size` zu **1** und/oder verringere `max_seq_length`.&#x20;
* Lass `use_`[`gradient_checkpointing`](/docs/de/blog/500k-context-length-fine-tuning.md#unsloth-gradient-checkpointing-enhancements)`="unsloth"` aktiv (es ist dafür ausgelegt, die VRAM-Nutzung zu reduzieren und die Kontextlänge zu erweitern).
  {% endhint %}

**Beispiel-Loader für MoE (bf16 LoRA):**

```python
import os
import torch
from unsloth import FastModel

model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3.5-35B-A3B",
    max_seq_length = 2048,
    load_in_4bit = False,     # MoE QLoRA nicht empfohlen, dichtes 27B ist in Ordnung
    load_in_16bit = True,     # bf16/16-Bit LoRA
    full_finetuning = False,
)
```

Sobald geladen, fügst du LoRA-Adapter hinzu und trainierst ähnlich wie im obigen SFT-Beispiel.

### Vision-Feinabstimmung

Unsloth unterstützt [Vision-Feinabstimmungs](/docs/de/grundlagen/vision-fine-tuning.md) für die multimodalen Qwen3.5-Modelle. Verwende die untenstehenden Qwen3.5-Notebooks und ändere die jeweiligen Modellnamen zu deinem gewünschten Qwen3.5-Modell.

| [Qwen3.5-**0,8B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(0_8B\)_Vision.ipynb) | [Qwen3.5-**2B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(2B\)_Vision.ipynb) | [Qwen3.5-**4B**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision.ipynb) | Qwen3.5-**9B** |
| --------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------- | -------------- |

* [Qwen3-VL GRPO/GSPO RL-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_VL_\(8B\)-Vision-GRPO.ipynb) (Modellnamen zu Qwen3.5-4B usw. ändern)

**Vision deaktivieren / Nur-Text-Feinabstimmung:**

Um Vision-Modelle feinabzustimmen, erlauben wir dir jetzt auszuwählen, welche Teile des Modells du feinabstimmen möchtest. Du kannst nur die Vision-Schichten, oder die Sprachschichten, oder die Attention-/MLP-Schichten feinabstimmen! Standardmäßig sind alle aktiviert!

{% code expandable="true" %}

```python
model = FastVisionModel.get_peft_model(
    model,
    finetune_vision_layers     = True, # False, wenn keine Vision-Schichten feinabgestimmt werden
    finetune_language_layers   = True, # False, wenn keine Sprachschichten feinabgestimmt werden
    finetune_attention_modules = True, # False, wenn keine Attention-Schichten feinabgestimmt werden
    finetune_mlp_modules       = True, # False, wenn keine MLP-Schichten feinabgestimmt werden

    r = 16,                           # Je größer, desto höher die Genauigkeit, könnte aber überanpassen
    lora_alpha = 16,                  # Empfohlen: alpha == r mindestens
    lora_dropout = 0,
    bias = "none",
    random_state = 3407,
    use_rslora = False,               # Wir unterstützen rank-stabilisiertes LoRA
    loftq_config = None,               # Und LoftQ
    target_modules = "all-linear",    # Jetzt optional! Kann bei Bedarf eine Liste angegeben werden
    modules_to_save=[
        "lm_head",
        "embed_tokens",
    ],
)
```

{% endcode %}

Um Qwen3.5 mit mehreren Bildern feinabzustimmen oder zu trainieren, sieh dir unseren [**Leitfaden für Multi-Bild-Vision**](/docs/de/grundlagen/vision-fine-tuning.md#multi-image-training)**.**

### Reinforcement Learning (RL)

Du kannst Qwen3.5 jetzt mit RL, GSPO, GRPO usw. trainieren mit [unserem kostenlosen Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_\(4B\)_Vision_GRPO.ipynb):

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B)_Vision_GRPO.ipynb>" %}

Du kannst Qwen3.5 RL mit Unsloth ausführen, obwohl es von vLLM nicht unterstützt wird, indem du `fast_inference=False` beim Laden des Modells setzt:

```python
from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Qwen3.5-4B",
    fast_inference=False,
)
```

### Feinabgestimmtes Modell speichern / exportieren

Du kannst unsere speziellen Inferenz-/Bereitstellungsleitfäden ansehen für [Unsloth Studio](/docs/de/neu/studio/export.md), [llama.cpp](/docs/de/grundlagen/inference-and-deployment/saving-to-gguf.md), [vLLM](/docs/de/grundlagen/inference-and-deployment/vllm-guide.md), [llama-server](/docs/de/grundlagen/inference-and-deployment/llama-server-and-openai-endpoint.md), [Ollama](/docs/de/grundlagen/inference-and-deployment/saving-to-ollama.md).

#### In GGUF speichern

Unsloth unterstützt das direkte Speichern in GGUF:

```python
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")
```

Oder GGUFs auf Hugging Face hochladen:

```python
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0")
```

Wenn sich das exportierte Modell in einer anderen Laufzeitumgebung schlechter verhält, nennt Unsloth die häufigste Ursache: **falsche Chat-Vorlage / EOS-Token zur Inferenzzeit** (du musst dieselbe Chat-Vorlage verwenden, mit der du trainiert hast).

#### In vLLM speichern

{% hint style="warning" %}
vLLM-Version `0.16.0` unterstützt Qwen3.5 nicht. Warte bis `0.170` oder probiere die Nightly-Version.
{% endhint %}

Um für vLLM in 16-Bit zu speichern, verwende:

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## ODER um zu HuggingFace hochzuladen:
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")
```

{% endcode %}

Um nur die LoRA-Adapter zu speichern, verwende entweder:

```python
model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")
```

Oder verwende unsere eingebaute Funktion:

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "lora")
## ODER um zu HuggingFace hochzuladen
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")
```

{% endcode %}

Für weitere Details lies unsere Inferenzleitfäden:

{% columns %}
{% column width="50%" %}
{% content-ref url="/pages/03532de69dfe0230fe5114e809721d8b7dd74ca6" %}
[Inferenz & Bereitstellung](/docs/de/grundlagen/inference-and-deployment.md)
{% endcontent-ref %}

{% content-ref url="/pages/9cfeafb2cc359999e3a7f6ba6ffa5468e4752653" %}
[GGUF & llama.cpp](/docs/de/grundlagen/inference-and-deployment/saving-to-gguf.md)
{% endcontent-ref %}
{% endcolumn %}

{% column width="50%" %}
{% content-ref url="/pages/13c9d0063a9732a68734b74792f3e30153873bf4" %}
[Model Export](/docs/de/neu/studio/export.md)
{% endcontent-ref %}

{% content-ref url="/pages/af094159d1c157db0d9afc00bd98b849fcdb8f0c" %}
[vLLM](/docs/de/grundlagen/inference-and-deployment/vllm-guide.md)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/qwen3.5/fine-tune.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
