# Qwen3-VL: Leitfaden zum Ausführen Qwen3-VL sind Qwens neue Vision-Modelle mit **Instruct-** und **Thinking-** Versionen. Die Modelle 2B, 4B, 8B und 32B sind dicht, während 30B und 235B MoE sind. Das 235B Thinking LLM liefert modernste Vision- und Coding-Leistung, die mit GPT-5 (high) und Gemini 2.5 Pro konkurriert.\ \ Qwen3-VL verfügt über Vision-, Video- und OCR-Fähigkeiten sowie 256K Kontext (kann auf 1M erweitert werden).\ \ [Unsloth](https://github.com/unslothai/unsloth) unterstützt **Qwen3-VL Fine-Tuning und** [**RL**](/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md). Trainiere Qwen3-VL (8B) kostenlos mit unseren [Notebooks](#fine-tuning-qwen3-vl). Qwen3-VL ausführen Qwen3-VL fine-tunen ## 🖥️ **Qwen3-VL ausführen** Um das Modell in llama.cpp, vLLM, Ollama usw. auszuführen, sind hier die empfohlenen Einstellungen: ### :gear: Empfohlene Einstellungen Qwen empfiehlt diese Einstellungen für beide Modelle (sie unterscheiden sich leicht zwischen Instruct und Thinking): | Instruct-Einstellungen: | Thinking-Einstellungen: | | ------------------------------------------------------------------------ | ------------------------------------------------------------------------ | | **Temperature = 0.7** | **Temperature = 1.0** | | **Top\_P = 0.8** | **Top\_P = 0.95** | | **presence\_penalty = 1.5** | **presence\_penalty = 0.0** | | Ausgabelänge = 32768 (bis zu 256K) | Ausgabelänge = 40960 (bis zu 256K) | | Top\_K = 20 | Top\_K = 20 | Qwen3-VL verwendete für seine Benchmark-Werte außerdem die folgenden Einstellungen, wie auf [GitHub](https://github.com/QwenLM/Qwen3-VL/tree/main?tab=readme-ov-file#generation-hyperparameters). {% columns %} {% column %} Instruct-Einstellungen: ```bash export greedy='false' export seed=3407 export top_p=0.8 export top_k=20 export temperature=0.7 export repetition_penalty=1.0 export presence_penalty=1.5 export out_seq_length=32768 ``` {% endcolumn %} {% column %} Thinking-Einstellungen: ```bash export greedy='false' export seed=1234 export top_p=0.95 export top_k=20 export temperature=1.0 export repetition_penalty=1.0 export presence_penalty=0.0 export out_seq_length=40960 ``` {% endcolumn %} {% endcolumns %} ### :bug:Fehlerbehebungen für Chat-Vorlagen Bei Unsloth legen wir den größten Wert auf Genauigkeit, daher haben wir untersucht, warum nach dem 2. Durchlauf der Thinking-Modelle llama.cpp abstürzen würde, wie unten zu sehen ist: {% columns %} {% column %}

{% endcolumn %} {% column %} Der Fehlercode: ``` terminate called after throwing an instance of 'std::runtime_error' what(): Value is not callable: null at row 63, column 78: {%- if '' in content %} {%- set reasoning_content = ((content.split('')|first).rstrip('\n').split('')|last).lstrip('\n') %} ^ ``` {% endcolumn %} {% endcolumns %} Wir haben die Thinking-Chatvorlage für die VL-Modelle erfolgreich behoben, daher haben wir alle Thinking-Quants und Unsloths Quants erneut hochgeladen. Sie sollten jetzt alle nach der 2. Unterhaltung funktionieren - **andere Quants lassen sich nach der 2. Unterhaltung nicht laden.** ### **Qwen3-VL Unsloth-Uploads**: Qwen3-VL wird ab dem 30. Oktober 2025 nun von llama.cpp für GGUFs unterstützt, sodass du sie lokal ausführen kannst! | Dynamische GGUFs (zum Ausführen) | 4-Bit BnB Unsloth Dynamic | 16-Bit Vollpräzision | | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | |

| ### 📖 Llama.cpp: Anleitung zum Ausführen von Qwen3-VL 1. Hole dir das neueste `llama.cpp` auf [GitHub hier](https://github.com/ggml-org/llama.cpp). Du kannst auch den Build-Anweisungen unten folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**, setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert. ```bash apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp -B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first cp llama.cpp/build/bin/llama-* llama.cpp ``` 2. **Lass uns zuerst ein Bild holen!** Du kannst auch Bilder hochladen. Wir werden verwenden , das einfach unser Mini-Logo ist und zeigt, wie Finetunes mit Unsloth erstellt werden:

3. Laden wir dieses Bild herunter {% code overflow="wrap" %} ```bash wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png ``` {% endcode %} 4. Lass uns das 2. Bild holen unter

{% code overflow="wrap" %} ```bash wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png ``` {% endcode %} 5. Dann nutzen wir die automatische Modell-Download-Funktion von llama.cpp, probiere dies für das 8B Instruct-Modell aus: ```bash ./llama.cpp/llama-mtmd-cli \ -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL \ --n-gpu-layers 99 \ --jinja \ --top-p 0.8 \ --top-k 20 \ --temp 0.7 \ --min-p 0.0 \ --flash-attn on \ --presence-penalty 1.5 \ --ctx-size 8192 ``` 6. Sobald du drin bist, wirst du den folgenden Bildschirm sehen:

7. Lade das Bild über `/image PATH` also `/image unsloth.png` und drücke dann ENTER

8. Wenn du ENTER drückst, wird es sagen "unsloth.png image loaded"

9. Jetzt stellen wir eine Frage wie "Was ist dieses Bild?":

10. Lade jetzt Bild 2 über `/image picture.png` und drücke dann ENTER und frage "Was ist dieses Bild?"

11. Und schließlich fragen wir, wie beide Bilder miteinander verbunden sind (es funktioniert!) {% code overflow="wrap" %} ``` Die beiden Bilder sind direkt miteinander verbunden, weil sie beide das **Dreizehenfaultier** zeigen, das das zentrale Motiv des Projekts "made with unsloth" ist. - Das erste Bild ist das **offizielle Logo** des Projekts "made with unsloth". Es zeigt eine stilisierte, cartoonhafte Dreizehenfaultier-Figur in einem grünen Kreis, mit dem Text "made with unsloth" daneben. Dies ist die visuelle Identität des Projekts. - Das zweite Bild ist eine **Fotografie** eines echten Dreizehenfaultiers in seinem natürlichen Lebensraum. Dieses Foto zeigt das äußere Erscheinungsbild und Verhalten des Tiers in freier Wildbahn. Die Beziehung zwischen den beiden Bildern besteht darin, dass das Logo (Bild 1) eine digitale Darstellung oder ein Symbol ist, das zur Bewerbung des Projekts "made with unsloth" verwendet wird, während die Fotografie (Bild 2) eine reale Darstellung des tatsächlichen Dreizehenfaultiers ist. Das Projekt verwendet wahrscheinlich die Figur aus dem Logo als Symbol oder Maskottchen, und die Fotografie dient dazu, zu veranschaulichen, wie das Dreizehenfaultier in seiner natürlichen Umgebung aussieht. ``` {% endcode %}

12. Du kannst das Modell auch über (nach der Installation von `pip install huggingface_hub hf_transfer` ) von HuggingFace herunterladen, `snapshot_download` was für große Model-Downloads nützlich ist, **da der automatische Downloader von llama.cpp hinterherhinken könnte.** Du kannst Q4\_K\_M oder andere quantisierte Versionen wählen. ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Oder "unsloth/Qwen3-VL-8B-Thinking-GGUF" local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Oder "unsloth/Qwen3-VL-8B-Thinking-GGUF" allow_patterns = ["*UD-Q4_K_XL*", "*mmproj-F16*"], ) ``` 13. Führe das Modell aus und probiere einen beliebigen Prompt aus. **Für Instruct:** ```bash ./llama.cpp/llama-mtmd-cli \ --model unsloth/Qwen3-VL-8B-Instruct-GGUF/Qwen3-VL-8B-Instruct-UD-Q4_K_XL.gguf \ --mmproj unsloth/Qwen3-VL-8B-Instruct-GGUF/mmproj-F16.gguf \ --n-gpu-layers 99 \ --jinja \ --top-p 0.8 \ --top-k 20 \ --temp 0.7 \ --min-p 0.0 \ --flash-attn on \ --presence-penalty 1.5 \ --ctx-size 8192 ``` 14. **Für Thinking**: ```bash ./llama.cpp/llama-mtmd-cli \ --model unsloth/Qwen3-VL-8B-Thinking-GGUF/Qwen3-VL-8B-Thinking-UD-Q4_K_XL.gguf \ --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \ --n-gpu-layers 99 \ --jinja \ --top-p 0.95 \ --top-k 20 \ --temp 1.0 \ --min-p 0.0 \ --flash-attn on \ --presence-penalty 0.0 \ --ctx-size 8192 ``` ### :magic\_wand:Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen Für Qwen3-VL-235B-A22B werden wir llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden. 1. Wir folgen ähnlichen Schritten wie oben, aber diesmal müssen wir auch zusätzliche Schritte durchführen, weil das Modell so groß ist. 2. Lade das Modell über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst UD-Q2\_K\_XL oder andere quantisierte Versionen wählen.. ```python # !pip install huggingface_hub hf_transfer import os os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download( repo_id = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF", local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF", allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"], ) ``` 3. Führe das Modell aus und probiere einen Prompt aus. Stelle die richtigen Parameter für Thinking vs. Instruct ein. **Instruct:** {% code overflow="wrap" %} ```bash ./llama.cpp/llama-mtmd-cli \ --model unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Instruct-UD-Q2_K_XL-00001-of-00002.gguf \ --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf --jinja \ --top-p 0.8 \ --top-k 20 \ --temp 0.7 \ --min-p 0.0 \ --flash-attn on \ --presence-penalty 1.5 \ --ctx-size 8192 \ ``` {% endcode %} **Thinking:** {% code overflow="wrap" %} ```bash ./llama.cpp/llama-mtmd-cli \ --model unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Thinking-UD-Q2_K_XL-00001-of-00002.gguf \ --mmproj unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/mmproj-F16.gguf \ --n-gpu-layers 99 \ --jinja \ --top-p 0.95 \ --top-k 20 \ --temp 1.0 \ --min-p 0.0 \ --flash-attn on \ --presence-penalty 0.0 \ --ctx-size 8192 \ -ot ".ffn_.*_exps.=CPU" ``` {% endcode %} 4. Bearbeite, `--ctx-size 16384` für die Kontextlänge, `--n-gpu-layers 99` für GPU-Offloading für wie viele Layer. Versuche, ihn anzupassen, wenn deiner GPU der Speicher ausgeht. Entferne ihn auch, wenn du nur CPU-Inferenz hast. {% hint style="success" %} **Verwende `--fit on` eingeführt am 15. Dez. 2025 für maximale Nutzung deiner GPU und CPU.** Optional kannst du `-ot ".ffn_.*_exps.=CPU"` verwenden, um alle MoE-Layer auf die CPU auszulagern! Dadurch lassen sich effektiv alle nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Du kannst den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn du mehr GPU-Kapazität hast. {% endhint %} ### 🐋 Docker: Qwen3-VL ausführen Wenn du bereits Docker Desktop hast, führe den folgenden Befehl aus, um Unsloths Modelle von Hugging Face zu verwenden, und fertig: ```bash docker model pull hf.co/unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL ``` Oder du kannst die von Docker hochgeladenen Qwen3-VL-Modelle ausführen: ```bash docker model run ai/qwen3-vl ``` ## 🦥 **Qwen3-VL fine-tunen** Unsloth unterstützt Fine-Tuning und Reinforcement Learning (RL) für Qwen3-VL, einschließlich der größeren Modelle 32B und 235B. Dazu gehört auch Unterstützung für Fine-Tuning von Video und Objekterkennung. Wie üblich macht Unsloth das Training von Qwen3-VL-Modellen 1,7x schneller, mit 60 % weniger VRAM und 8x längeren Kontexten ohne Genauigkeitsverlust.\ \ Wir haben zwei Trainings-Notebooks für Qwen3-VL (8B) erstellt, die du kostenlos auf Colab trainieren kannst: * [Normales SFT-Fine-Tuning-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_VL_\(8B\)-Vision.ipynb) * [GRPO/GSPO RL-Notebook](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_VL_\(8B\)-Vision-GRPO.ipynb) {% hint style="success" %} **Das Speichern von Qwen3-VL als GGUF funktioniert jetzt, da llama.cpp es gerade unterstützt hat!** Wenn du ein anderes Qwen3-VL-Modell verwenden möchtest, ändere einfach das 8B-Modell zu dem 2B-, 32B- usw. Modell. {% endhint %} Das Ziel des GRPO-Notebooks ist es, ein Vision-Language-Modell mit einem Bildinput wie unten gezeigt mathematische Probleme per RL lösen zu lassen:

Diese Qwen3-VL-Unterstützung integriert außerdem unser neuestes Update für noch speichereffizienteres und schnelleres RL, einschließlich unserer [Standby-Funktion](/docs/de/loslegen/reinforcement-learning-rl-guide/memory-efficient-rl.md#unsloth-standby), die im Vergleich zu anderen Implementierungen einzigartig die Geschwindigkeitsverschlechterung begrenzt. Mehr darüber, wie man Vision-LLMs mit RL trainiert, kannst du in unserem [VLM GRPO-Leitfaden](/docs/de/loslegen/reinforcement-learning-rl-guide/vision-reinforcement-learning-vlm-rl.md). ### Training mit mehreren Bildern Um Qwen3-VL mit mehreren Bildern feinzujustieren oder zu trainieren, ist die einfachste Änderung, ```python ds_converted = ds.map( convert_to_conversation, ) ``` durch folgendes zu ersetzen: ```python ds_converted = [convert_to_converation(sample) for sample in dataset] ``` Die Verwendung von map aktiviert Dataset-Standardisierung und Arrow-Verarbeitungsregeln, die streng und komplizierter zu definieren sein können. --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/de/modelle/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-vl-how-to-run-and-fine-tune.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.