🌠Qwen3-VL: Anleitung zum Ausführen

Lerne, Qwen3-VL lokal mit Unsloth feinabzustimmen und auszuführen.

Qwen3-VL ist Qwens neues Visionsmodell mit Anleitung und Denken Versionen. Die 2B-, 4B-, 8B- und 32B-Modelle sind dicht (dense), während 30B und 235B MoE sind. Das 235B Thinking-LLM liefert SOTA-Visions- und Coding-Leistung, die mit GPT-5 (hoch) und Gemini 2.5 Pro konkurriert. Qwen3-VL verfügt über Vision-, Video- und OCR-Fähigkeiten sowie über einen Kontext von 256K (kann auf 1M erweitert werden). Unsloth unterstützt Qwen3-VL Feintuning und RL. Trainiere Qwen3-VL (8B) kostenlos mit unseren Notebooks.

Qwen3-VL ausführen Qwen3-VL feintunen

🖥️ Qwen3-VL ausführen

Um das Modell in llama.cpp, vLLM, Ollama usw. auszuführen, sind hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

Qwen empfiehlt diese Einstellungen für beide Modelle (sie unterscheiden sich ein wenig für Instruct vs. Thinking):

Instruct-Einstellungen:

Thinking-Einstellungen:

Temperatur = 0,7

Temperatur = 1,0

Top_P = 0,8

Top_P = 0,95

presence_penalty = 1,5

presence_penalty = 0,0

Ausgabelänge = 32768 (bis zu 256K)

Ausgabelänge = 40960 (bis zu 256K)

Top_K = 20

Qwen3-VL verwendete für ihre Benchmark-Zahlen auch die untenstehenden Einstellungen, wie erwähnt auf GitHub.

Instruct-Einstellungen:

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

Thinking-Einstellungen:

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛Fehlerbehebungen für Chat-Vorlagen

Bei Unsloth liegt uns Genauigkeit am meisten am Herzen, daher haben wir untersucht, warum nach der 2. Runde beim Ausführen der Thinking-Modelle llama.cpp abstürzen würde, wie unten zu sehen ist:

Der Fehlercode:

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

Wir haben die Thinking-Chat-Vorlage für die VL-Modelle erfolgreich repariert und daher alle Thinking-Quantisierungen sowie Unsloths Quants erneut hochgeladen. Sie sollten jetzt nach dem 2. Gespräch alle funktionieren - andere Quants werden nach dem 2. Gespräch fehlschlagen zu laden.

Qwen3-VL Unsloth Uploads:

Qwen3-VL wird seit dem 30. Oktober 2025 von llama.cpp für GGUFs unterstützt, sodass du sie lokal ausführen kannst!

Dynamische GGUFs (zum Ausführen)

4-Bit BnB Unsloth Dynamisch

16-Bit Vollpräzision

📖 Llama.cpp: Qwen3-VL Tutorial ausführen

Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp

Lass uns zuerst ein Bild holen! Du kannst auch Bilder hochladen. Wir verwenden https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png, das nur unser Mini-Logo ist, das zeigt, wie Feintunings mit Unsloth erstellt werden:

Lass uns dieses Bild herunterladen

wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png

Holen wir uns das 2. Bild unter https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png

Dann verwenden wir die automatische Modell-Download-Funktion von llama.cpp, probiere dies für das 8B Instruct-Modell:

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192

Sobald du drin bist, siehst du den folgenden Bildschirm:

Lade das Bild hoch über /image PATH z. B. /image unsloth.png dann drücke ENTER

Wenn du ENTER drückst, wird "unsloth.png image loaded" erscheinen

Nun lass uns eine Frage stellen wie "Was ist auf diesem Bild?":

Lade jetzt Bild 2 über /image picture.png dann drücke ENTER und frage "Was ist auf diesem Bild?"

Und schließlich fragen wir, wie beide Bilder miteinander verbunden sind (es funktioniert!)

Die beiden Bilder stehen in direktem Zusammenhang, weil beide die Baumfaultiere als zentrales Motiv zeigen, welches das zentrale Thema des "made with unsloth"-Projekts ist.

- Das erste Bild ist das offizielle Logo des "made with unsloth"-Projekts. Es zeigt eine stilisierte, cartoonartige Baumfaultier-Figur innerhalb eines grünen Kreises, mit dem Text "made with unsloth" daneben. Dies ist die visuelle Identität des Projekts.
- Das zweite Bild ist ein Foto eines echten Baumfaultiers in seinem natürlichen Lebensraum. Dieses Foto zeigt das äußere Erscheinungsbild und Verhalten des Tieres in der Wildnis.

Die Beziehung zwischen den beiden Bildern besteht darin, dass das Logo (Bild 1) eine digitale Darstellung oder ein Symbol zur Bewerbung des "made with unsloth"-Projekts ist, während das Foto (Bild 2) eine reale Darstellung des tatsächlichen Baumfaultiers ist. Das Projekt verwendet wahrscheinlich die Figur aus dem Logo als Icon oder Maskottchen, und das Foto dient dazu, zu veranschaulichen, wie das Baumfaultier in seiner natürlichen Umgebung aussieht.

Du kannst das Modell auch herunterladen über (nach Installation von Laden Sie das Modell herunter via (nach der Installation von ) HuggingFaces snapshot_download was nützlich für große Modelldownloads ist, da der automatische Downloader von llama.cpp möglicherweise hinterherhinkt. Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id   = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Oder "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Oder "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Führe das Modell aus und probiere beliebige Prompts. Für Instruct:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Instruct-GGUF/Qwen3-VL-8B-Instruct-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3-VL-8B-Instruct-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192

Für Thinking:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-8B-Thinking-GGUF/Qwen3-VL-8B-Thinking-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 0.0 \
    --ctx-size 8192

🪄Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen

Für Qwen3-VL-235B-A22B werden wir llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht. Laden Sie das Modell herunter via (nach der Installation von ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

Führe das Modell aus und teste ein Prompt. Stelle die korrekten Parameter für Thinking vs. Instruct ein.

Instruct:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Instruct-UD-Q2_K_XL-00001-of-00002.gguf \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192 \

Thinking:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Thinking-UD-Q2_K_XL-00001-of-00002.gguf \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/mmproj-F16.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 0.0 \
    --ctx-size 8192 \
    -ot ".ffn_.*_exps.=CPU"

Bearbeiten, für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

Verwenden Sie --fit on eingeführt am 15. Dez. 2025 für maximale Nutzung Ihrer GPU und CPU.

Optional, verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.

🐋 Docker: Qwen3-VL ausführen

Wenn du bereits Docker Desktop hast, um Unsloths Modelle von Hugging Face auszuführen, führe den folgenden Befehl aus und du bist fertig:

docker model pull hf.co/unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL

Oder du kannst die von Docker hochgeladenen Qwen3-VL-Modelle ausführen:

docker model run ai/qwen3-vl

🦥 Qwen3-VL feintunen

Unsloth unterstützt Feintuning und Reinforcement Learning (RL) für Qwen3-VL, einschließlich der größeren 32B- und 235B-Modelle. Dies umfasst Unterstützung für Feintuning für Video- und Objekterkennung. Wie üblich macht Unsloth Qwen3-VL-Modelle 1,7x schneller mit 60% weniger VRAM und 8x längeren Kontextlängen ohne Genauigkeitsverschlechterung trainierbar. Wir haben zwei Qwen3-VL (8B) Trainings-Notebooks erstellt, die du kostenlos auf Colab trainieren kannst:

Das Speichern von Qwen3-VL als GGUF funktioniert jetzt, da llama.cpp dies gerade unterstützt!

Wenn du ein anderes Qwen3-VL-Modell verwenden möchtest, ändere einfach das 8B-Modell auf das 2B-, 32B- usw. Modell.

Das Ziel des GRPO-Notebooks ist es, ein Vision-Language-Modell mithilfe von RL dazu zu bringen, Mathematikaufgaben anhand einer Bildeingabe wie unten zu lösen:

Diese Qwen3-VL-Unterstützung integriert auch unser neuestes Update für noch speichereffizienteres und schnelleres RL einschließlich unseres Standby-Features, das einzigartig die Geschwindigkeitsverschlechterung im Vergleich zu anderen Implementierungen begrenzt. Du kannst mehr darüber lesen, wie man Vision-LLMs mit RL trainiert, in unserem VLM GRPO-Leitfaden.

Multi-Image-Training

Um Qwen3-VL mit mehreren Bildern zu feintunen oder zu trainieren, ist die einfachste Änderung,

ds_converted = ds.map(
    convert_to_conversation,
)

mit:

ds_converted = [convert_to_converation(sample) for sample in dataset]

Die Verwendung von map löst die Standardisierung des Datensatzes und Arrow-Verarbeitungsregeln aus, die streng sein und komplizierter zu definieren sein können.

VorherigeQwen3 NächsteQwen3-2507

Zuletzt aktualisiert vor 7 Stunden

War das hilfreich?

hashtag🖥️ Qwen3-VL ausführen

hashtag⚙️ Empfohlene Einstellungen

hashtag🐛Fehlerbehebungen für Chat-Vorlagen

hashtagQwen3-VL Unsloth Uploads:

hashtag📖 Llama.cpp: Qwen3-VL Tutorial ausführen

hashtag🪄Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen

hashtag🐋 Docker: Qwen3-VL ausführen

hashtag🦥 Qwen3-VL feintunen

hashtagMulti-Image-Training