# Qwen3-VL: Anleitung zum Ausführen

Qwen3-VL ist Qwens neues Vision-Modell mit **instruct** und **thinking** Versionen. Die 2B-, 4B-, 8B- und 32B-Modelle sind dicht (dense), während 30B und 235B MoE sind. Das 235B thinking LLM liefert SOTA-Vision- und Coding-Leistung, die mit GPT-5 (high) und Gemini 2.5 Pro konkurriert.\
\
Qwen3-VL verfügt über Vision-, Video- und OCR-Fähigkeiten sowie 256K Kontext (kann auf 1M erweitert werden).\
\
[Unsloth](https://github.com/unslothai/unsloth) unterstützt **Qwen3-VL Fine-Tuning und** [**RL**](https://unsloth.ai/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl). Trainiere Qwen3-VL (8B) kostenlos mit unseren [Notebooks](#fine-tuning-qwen3-vl).

<a href="#running-qwen3-vl" class="button primary">Qwen3-VL ausführen</a><a href="#fine-tuning-qwen3-vl" class="button secondary">Qwen3-VL fine-tunen</a>

## 🖥️ **Qwen3-VL ausführen**

Um das Modell in llama.cpp, vLLM, Ollama etc. auszuführen, sind hier die empfohlenen Einstellungen:

### :gear: Empfohlene Einstellungen

Qwen empfiehlt diese Einstellungen für beide Modelle (sie unterscheiden sich etwas für Instruct vs Thinking):

| Instruct-Einstellungen:                                                  | Thinking-Einstellungen:                                                  |
| ------------------------------------------------------------------------ | ------------------------------------------------------------------------ |
| <mark style="background-color:blue;">**Temperature = 0.7**</mark>        | <mark style="background-color:blue;">**Temperature = 1.0**</mark>        |
| <mark style="background-color:yellow;">**Top\_P = 0.8**</mark>           | <mark style="background-color:yellow;">**Top\_P = 0.95**</mark>          |
| <mark style="background-color:green;">**presence\_penalty = 1.5**</mark> | <mark style="background-color:green;">**presence\_penalty = 0.0**</mark> |
| Ausgabelänge = 32768 (bis zu 256K)                                       | Ausgabelänge = 40960 (bis zu 256K)                                       |
| Top\_K = 20                                                              | Top\_K = 20                                                              |

Qwen3-VL verwendete auch die folgenden Einstellungen für ihre Benchmark-Zahlen, wie erwähnt [auf GitHub](https://github.com/QwenLM/Qwen3-VL/tree/main?tab=readme-ov-file#generation-hyperparameters).

{% columns %}
{% column %}
Instruct-Einstellungen:

```bash
export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768
```

{% endcolumn %}

{% column %}
Thinking-Einstellungen:

```bash
export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960
```

{% endcolumn %}
{% endcolumns %}

### :bug:Fehlerbehebungen an Chat-Template

Bei Unsloth legen wir am meisten Wert auf Genauigkeit, daher haben wir untersucht, warum nach der zweiten Runde mit den Thinking-Modellen llama.cpp abbrechen würde, wie unten zu sehen ist:

{% columns %}
{% column %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-37356b40688b10a85c927e1d432739a15bb33682%2Fimage.webp?alt=media" alt=""><figcaption></figcaption></figure>
{% endcolumn %}

{% column %}
Der Fehlercode:

```
terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^
```

{% endcolumn %}
{% endcolumns %}

Wir haben das Thinking-Chat-Template für die VL-Modelle erfolgreich repariert, daher haben wir alle Thinking-Quants und Unsloths Quants erneut hochgeladen. Sie sollten jetzt alle nach der zweiten Unterhaltung funktionieren - **andere Quants werden nach der zweiten Unterhaltung beim Laden fehlschlagen.**

### **Qwen3-VL Unsloth Uploads**:

Qwen3-VL wird seit dem 30. Oktober 2025 von llama.cpp für GGUFs unterstützt, sodass du sie lokal ausführen kannst!

| Dynamische GGUFs (zum Ausführen)                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | 4-Bit BnB Unsloth Dynamisch                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           | 16-Bit Volle Genauigkeit                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
| ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| <ul><li><a href="https://huggingface.co/unsloth/Qwen3-VL-2B-Instruct-GGUF">2B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-2B-Thinking-GGUF">2B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-4B-Instruct-GGUF">4B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-4B-Thinking-GGUF">4B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-8B-Instruct-GGUF">8B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-8B-Thinking-GGUF">8B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-30B-A3B-Instruct-GGUF">30B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-30B-A3B-Thinking-GGUF">30B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-32B-Instruct-GGUF">32B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-32B-Thinking-GGUF">32B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF">235B-A22B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF">235B-A22B-Thinking</a></li></ul> | <ul><li><a href="https://huggingface.co/unsloth/Qwen3-VL-2B-Instruct-unsloth-bnb-4bit">2B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-2B-Thinking-unsloth-bnb-4bit">2B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-4B-Instruct-unsloth-bnb-4bit">4B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-4B-Thinking-unsloth-bnb-4bit">4B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-8B-Instruct-unsloth-bnb-4bit">8B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-8B-Thinking-unsloth-bnb-4bit">8B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-32B-Instruct-unsloth-bnb-4bit">32B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-32B-Thinking-unsloth-bnb-4bit">32B-Thinking</a></li></ul> | <ul><li><a href="https://huggingface.co/unsloth/Qwen3-VL-2B-Instruct">2B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-4B-Instruct">4B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-4B-Thinking">4B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-8B-Instruct">8B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-8B-Thinking">8B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-30B-A3B-Instruct">30B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-30B-A3B-Thinking">30B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-32B-Instruct">32B-Instruct</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-32B-Thinking">32B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-235B-A22B-Thinking">235B-A22B-Thinking</a></li><li><a href="https://huggingface.co/unsloth/Qwen3-VL-235B-A22B-Instruct">235B-A22B-Instruct</a></li></ul> |

### 📖 Llama.cpp: Qwen3-VL Tutorial ausführen

1. Hole dir das neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den unten stehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig eingeschaltet.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. **Lass uns zuerst ein Bild bekommen!** Du kannst auch Bilder hochladen. Wir verwenden <https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png>, das nur unser Mini-Logo ist, das zeigt, wie Finetunes mit Unsloth erstellt werden:

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-9bf7ec93680f889d7602e5f56a8d677d6a58ae6a%2Funsloth%20made%20with%20love.png?alt=media" alt="" width="188"><figcaption></figcaption></figure>

3. Lass uns dieses Bild herunterladen

{% code overflow="wrap" %}

```bash
wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png
```

{% endcode %}

4. Lass uns das zweite Bild hier holen <https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg>

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-4b30cc86b2c75edf95ee1ec6fe0c51fb30afd6c0%2F8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg?alt=media" alt="" width="188"><figcaption></figcaption></figure>

{% code overflow="wrap" %}

```bash
wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png
```

{% endcode %}

5. Dann nutze die automatische Modell-Download-Funktion von llama.cpp, probiere dies für das 8B Instruct-Modell:

```bash
./llama.cpp/llama-mtmd-cli \
    -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192
```

6. Sobald du drin bist, siehst du den folgenden Bildschirm:

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-636dfd126430a8a8c91ef6d248b007daa34561c5%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

7. Lade das Bild hoch via `/image PATH` z.B. `/image unsloth.png` dann drücke ENTER

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-7525265b8ef19c7fd17cca64d1b64ffe1959c2d1%2Fimage.png?alt=media" alt="" width="375"><figcaption></figcaption></figure>

8. Wenn du ENTER drückst, wird angezeigt "unsloth.png image loaded"

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-2c996efe3373ae7f05bfec4d214524768624a6a8%2Fimage.png?alt=media" alt="" width="375"><figcaption></figcaption></figure>

9. Nun lass uns eine Frage stellen wie "What is this image?":

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-62bd79e094c7daad6a8f021194aa0e67ef96f9a5%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

10. Jetzt lade Bild 2 via `/image picture.png` dann drücke ENTER und frage "What is this image?"

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-317cc2c7e41765ff466d357d14d506115f3262b6%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

11. Und schließlich lass uns fragen, wie beide Bilder zusammenhängen (es funktioniert!)

{% code overflow="wrap" %}

```
Die beiden Bilder hängen direkt zusammen, weil beide das Baumfaultier als zentrales Motiv zeigen, welches das zentrale Thema des "made with unsloth"-Projekts ist.

- Das erste Bild ist das offizielle Logo des "made with unsloth"-Projekts. Es zeigt eine stilisierte, cartoonartige Baumfaultier-Figur in einem grünen Kreis, mit dem Text "made with unsloth" daneben. Dies ist die visuelle Identität des Projekts.
- Das zweite Bild ist eine Fotografie eines echten Baumfaultiers in seinem natürlichen Lebensraum. Dieses Foto zeigt das Aussehen und Verhalten des Tieres in der Wildnis.

Die Beziehung zwischen den beiden Bildern ist, dass das Logo (Bild 1) eine digitale Darstellung oder ein Symbol zur Bewerbung des "made with unsloth"-Projekts ist, während die Fotografie (Bild 2) eine reale Darstellung des tatsächlichen Baumfaultiers ist. Das Projekt verwendet wahrscheinlich die Figur aus dem Logo als Icon oder Maskottchen, und das Foto dient dazu, zu veranschaulichen, wie das Baumfaultier in seiner natürlichen Umgebung aussieht.
```

{% endcode %}

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-e323226293156ac17708836c635c6df3ab2b9ca3%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

12. Du kannst das Modell auch herunterladen via (nach Installation von `pip install huggingface_hub hf_transfer` ) HuggingFace's `snapshot_download` was nützlich für große Modelldownloads ist, **da der Auto-Downloader von llama.cpp verzögern könnte.** Du kannst Q4\_K\_M oder andere quantisierte Versionen wählen.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id   = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Oder "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Oder "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    allow_patterns = ["*UD-Q4_K_XL*", "*mmproj-F16*"],
)
```

13. Führe das Modell aus und probiere beliebige Prompts. **Für Instruct:**

```bash
./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Instruct-GGUF/Qwen3-VL-8B-Instruct-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3-VL-8B-Instruct-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192
```

14. **Für Thinking**:

```bash
./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Thinking-GGUF/Qwen3-VL-8B-Thinking-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 0.0 \
    --ctx-size 8192
```

### :magic\_wand:Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen

Für Qwen3-VL-235B-A22B werden wir llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

1. Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.
2. Lade das Modell herunter via (nach Installation von `pip install huggingface_hub hf_transfer` ). Du kannst UD-Q2\_K\_XL oder andere quantisierte Versionen wählen.

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
       local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
   )
   ```
3. Führe das Modell aus und probiere ein Prompt. Setze die korrekten Parameter für Thinking vs. Instruct.

**Instruct:**

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Instruct-UD-Q2_K_XL-00001-of-00002.gguf \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192 \
```

{% endcode %}

**Thinking:**

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Thinking-UD-Q2_K_XL-00001-of-00002.gguf \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 0.0 \
    --ctx-size 8192 \
    -ot ".ffn_.*_exps.=CPU"
```

{% endcode %}

4. Bearbeite, `--ctx-size 16384` für Kontextlänge, `--n-gpu-layers 99` für GPU-Offloading, wie viele Schichten. Versuche, dies anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

{% hint style="success" %}
**Verwende `--fit on` eingeführt am 15. Dez. 2025 für maximale Nutzung von GPU und CPU.**

Optional, nutze `-ot ".ffn_.*_exps.=CPU"` um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU zu platzieren und verbessert die Generationsgeschwindigkeit. Du kannst den Regex-Ausdruck anpassen, um mehr Schichten zu verlagern, wenn du mehr GPU-Kapazität hast.
{% endhint %}

### 🐋 Docker: Qwen3-VL ausführen

Wenn du bereits Docker Desktop hast, führe den folgenden Befehl aus, um Unsloths Modelle von Hugging Face auszuführen, und du bist fertig:

```bash
docker model pull hf.co/unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL
```

Oder du kannst Dockers hochgeladene Qwen3-VL-Modelle ausführen:

```bash
docker model run ai/qwen3-vl
```

## 🦥 **Qwen3-VL fine-tunen**

Unsloth unterstützt Fine-Tuning und Reinforcement Learning (RL) für Qwen3-VL einschließlich der größeren 32B- und 235B-Modelle. Dies umfasst Unterstützung für Fine-Tuning für Video- und Objekterkennung. Wie üblich macht Unsloth Qwen3-VL-Modelle 1,7x schneller mit 60 % weniger VRAM und 8x längeren Kontextlängen ohne Genauigkeitsverlust.\
\
Wir haben zwei Qwen3-VL (8B) Trainings-Notebooks erstellt, die du kostenlos auf Colab trainieren kannst:

* [Normales SFT-Fine-Tuning-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_VL_\(8B\)-Vision.ipynb)
* [GRPO/GSPO RL-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_VL_\(8B\)-Vision-GRPO.ipynb)

{% hint style="success" %}
**Das Speichern von Qwen3-VL als GGUF funktioniert jetzt, da llama.cpp es gerade unterstützt!**

Wenn du ein anderes Qwen3-VL-Modell verwenden möchtest, ändere einfach das 8B-Modell auf das 2B-, 32B- usw. Modell.
{% endhint %}

Ziel des GRPO-Notebooks ist es, ein Vision-Language-Modell mittels RL dazu zu bringen, Mathematikaufgaben anhand eines Bildinputs wie unten zu lösen:

<figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-fe1591d4378d19fa5115f61680d60356846807f5%2Four_new_3_datasets.png?alt=media" alt="" width="375"><figcaption></figcaption></figure>

Diese Qwen3-VL-Unterstützung integriert auch unser neuestes Update für noch speichereffizienteres + schnelleres RL einschließlich unseres [Standby-Features](https://unsloth.ai/docs/de/loslegen/reinforcement-learning-rl-guide/memory-efficient-rl#unsloth-standby), das einzigartig die Geschwindigkeitsverschlechterung im Vergleich zu anderen Implementierungen begrenzt. Du kannst mehr darüber lesen, wie man Vision-LLMs mit RL trainiert, in unserem [VLM GRPO Guide](https://unsloth.ai/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl).

### Multi-Image-Training

Um Qwen3-VL mit mehreren Bildern zu fine-tunen oder zu trainieren, ist die einfachste Änderung,

```python
ds_converted = ds.map(
    convert_to_conversation,
)
```

zu ersetzen durch:

```python
ds_converted = [convert_to_converation(sample) for sample in dataset]
```

Die Verwendung von map löst die Standardisierung des Datensatzes und Arrow-Verarbeitungsregeln aus, die streng sein können und komplizierter zu definieren sind.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-vl-how-to-run-and-fine-tune.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
