🌠Qwen3-VL: Anleitung zum Ausführen

Erfahre, wie du Qwen3-VL lokal mit Unsloth feinabstimmst und ausführst.

Qwen3-VL ist Qwens neues Vision-Modell mit instruct und thinking Versionen. Die 2B-, 4B-, 8B- und 32B-Modelle sind dicht (dense), während 30B und 235B MoE sind. Das 235B thinking LLM liefert SOTA-Vision- und Coding-Leistung, die mit GPT-5 (high) und Gemini 2.5 Pro konkurriert. Qwen3-VL verfügt über Vision-, Video- und OCR-Fähigkeiten sowie 256K Kontext (kann auf 1M erweitert werden). Unslotharrow-up-right unterstützt Qwen3-VL Fine-Tuning und RL. Trainiere Qwen3-VL (8B) kostenlos mit unseren Notebooks.

Qwen3-VL ausführenQwen3-VL fine-tunen

🖥️ Qwen3-VL ausführen

Um das Modell in llama.cpp, vLLM, Ollama etc. auszuführen, sind hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

Qwen empfiehlt diese Einstellungen für beide Modelle (sie unterscheiden sich etwas für Instruct vs Thinking):

Instruct-Einstellungen:
Thinking-Einstellungen:

Temperature = 0.7

Temperature = 1.0

Top_P = 0.8

Top_P = 0.95

presence_penalty = 1.5

presence_penalty = 0.0

Ausgabelänge = 32768 (bis zu 256K)

Ausgabelänge = 40960 (bis zu 256K)

Top_K = 20

Top_K = 20

Qwen3-VL verwendete auch die folgenden Einstellungen für ihre Benchmark-Zahlen, wie erwähnt auf GitHubarrow-up-right.

Instruct-Einstellungen:

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

Thinking-Einstellungen:

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛Fehlerbehebungen an Chat-Template

Bei Unsloth legen wir am meisten Wert auf Genauigkeit, daher haben wir untersucht, warum nach der zweiten Runde mit den Thinking-Modellen llama.cpp abbrechen würde, wie unten zu sehen ist:

Der Fehlercode:

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

Wir haben das Thinking-Chat-Template für die VL-Modelle erfolgreich repariert, daher haben wir alle Thinking-Quants und Unsloths Quants erneut hochgeladen. Sie sollten jetzt alle nach der zweiten Unterhaltung funktionieren - andere Quants werden nach der zweiten Unterhaltung beim Laden fehlschlagen.

Qwen3-VL Unsloth Uploads:

Qwen3-VL wird seit dem 30. Oktober 2025 von llama.cpp für GGUFs unterstützt, sodass du sie lokal ausführen kannst!

📖 Llama.cpp: Qwen3-VL Tutorial ausführen

  1. Hole dir das neueste llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den unten stehenden Build-Anweisungen folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder einfach nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig eingeschaltet.

  1. Lass uns zuerst ein Bild bekommen! Du kannst auch Bilder hochladen. Wir verwenden https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.pngarrow-up-right, das nur unser Mini-Logo ist, das zeigt, wie Finetunes mit Unsloth erstellt werden:

  1. Lass uns dieses Bild herunterladen

  1. Dann nutze die automatische Modell-Download-Funktion von llama.cpp, probiere dies für das 8B Instruct-Modell:

  1. Sobald du drin bist, siehst du den folgenden Bildschirm:

  1. Lade das Bild hoch via /image PATH z.B. /image unsloth.png dann drücke ENTER

  1. Wenn du ENTER drückst, wird angezeigt "unsloth.png image loaded"

  1. Nun lass uns eine Frage stellen wie "What is this image?":

  1. Jetzt lade Bild 2 via /image picture.png dann drücke ENTER und frage "What is this image?"

  1. Und schließlich lass uns fragen, wie beide Bilder zusammenhängen (es funktioniert!)

  1. Du kannst das Modell auch herunterladen via (nach Installation von pip install huggingface_hub hf_transfer ) HuggingFace's snapshot_download was nützlich für große Modelldownloads ist, da der Auto-Downloader von llama.cpp verzögern könnte. Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere beliebige Prompts. Für Instruct:

  1. Für Thinking:

🪄Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen

Für Qwen3-VL-235B-A22B werden wir llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

  1. Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

  2. Lade das Modell herunter via (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen.

  3. Führe das Modell aus und probiere ein Prompt. Setze die korrekten Parameter für Thinking vs. Instruct.

Instruct:

Thinking:

  1. Bearbeite, --ctx-size 16384 für Kontextlänge, --n-gpu-layers 99 für GPU-Offloading, wie viele Schichten. Versuche, dies anzupassen, wenn deine GPU nicht genug Speicher hat. Entferne es auch, wenn du nur CPU-Inferenz hast.

circle-check

🐋 Docker: Qwen3-VL ausführen

Wenn du bereits Docker Desktop hast, führe den folgenden Befehl aus, um Unsloths Modelle von Hugging Face auszuführen, und du bist fertig:

Oder du kannst Dockers hochgeladene Qwen3-VL-Modelle ausführen:

🦥 Qwen3-VL fine-tunen

Unsloth unterstützt Fine-Tuning und Reinforcement Learning (RL) für Qwen3-VL einschließlich der größeren 32B- und 235B-Modelle. Dies umfasst Unterstützung für Fine-Tuning für Video- und Objekterkennung. Wie üblich macht Unsloth Qwen3-VL-Modelle 1,7x schneller mit 60 % weniger VRAM und 8x längeren Kontextlängen ohne Genauigkeitsverlust. Wir haben zwei Qwen3-VL (8B) Trainings-Notebooks erstellt, die du kostenlos auf Colab trainieren kannst:

circle-check

Ziel des GRPO-Notebooks ist es, ein Vision-Language-Modell mittels RL dazu zu bringen, Mathematikaufgaben anhand eines Bildinputs wie unten zu lösen:

Diese Qwen3-VL-Unterstützung integriert auch unser neuestes Update für noch speichereffizienteres + schnelleres RL einschließlich unseres Standby-Features, das einzigartig die Geschwindigkeitsverschlechterung im Vergleich zu anderen Implementierungen begrenzt. Du kannst mehr darüber lesen, wie man Vision-LLMs mit RL trainiert, in unserem VLM GRPO Guide.

Multi-Image-Training

Um Qwen3-VL mit mehreren Bildern zu fine-tunen oder zu trainieren, ist die einfachste Änderung,

zu ersetzen durch:

Die Verwendung von map löst die Standardisierung des Datensatzes und Arrow-Verarbeitungsregeln aus, die streng sein können und komplizierter zu definieren sind.

Zuletzt aktualisiert

War das hilfreich?