🌠Qwen3-VL: Anleitung zum Ausführen

Lerne, wie man Qwen3-VL lokal mit Unsloth finetunt und ausführt.

Qwen3-VL ist Qwens neues Vision-Modell mit instruct und Denken Versionen. Die Modelle 2B, 4B, 8B und 32B sind dicht, während 30B und 235B MoE sind. Das 235B Thinking-LLM liefert SOTA-Leistung in Vision und Codierung, die mit GPT-5 (hoch) und Gemini 2.5 Pro konkurriert. Qwen3-VL verfügt über Vision-, Video- und OCR-Fähigkeiten sowie einen Kontext von 256K (kann auf 1M erweitert werden). Unslotharrow-up-right unterstützt Qwen3-VL Fine-Tuning und RL. Trainiere Qwen3-VL (8B) kostenlos mit unseren Notebooks.

Qwen3-VL ausführenQwen3-VL feinabstimmen

🖥️ Qwen3-VL ausführen

Um das Modell in llama.cpp, vLLM, Ollama usw. auszuführen, sind hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

Qwen empfiehlt diese Einstellungen für beide Modelle (sie unterscheiden sich etwas für Instruct vs. Thinking):

Instruct-Einstellungen:
Thinking-Einstellungen:

Temperatur = 0,7

Temperatur = 1,0

Top_P = 0,8

Top_P = 0,95

presence_penalty = 1,5

presence_penalty = 0,0

Ausgabelänge = 32768 (bis zu 256K)

Ausgabelänge = 40960 (bis zu 256K)

Top_K = 20

Top_K = 20

Qwen3-VL verwendete auch die untenstehenden Einstellungen für ihre Benchmark-Zahlen, wie erwähnt auf GitHubarrow-up-right.

Instruct-Einstellungen:

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

Thinking-Einstellungen:

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛Fehlerbehebungen für Chat-Vorlage

Bei Unsloth legen wir am meisten Wert auf Genauigkeit, daher haben wir untersucht, warum nach der zweiten Runde beim Ausführen der Thinking-Modelle llama.cpp abstürzen würde, wie unten zu sehen ist:

Der Fehlercode:

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

Wir haben die Thinking-Chat-Vorlage für die VL-Modelle erfolgreich behoben, daher haben wir alle Thinking-Quants und Unsloths Quants erneut hochgeladen. Sie sollten jetzt nach der zweiten Konversation alle funktionieren - andere Quants werden nach der zweiten Konversation beim Laden fehlschlagen.

Qwen3-VL Unsloth-Uploads:

Qwen3-VL wird ab dem 30. Oktober 2025 von llama.cpp für GGUFs unterstützt, sodass du sie lokal ausführen kannst!

📖 Llama.cpp: Qwen3-VL Tutorial ausführen

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Lass uns zuerst ein Bild besorgen! Du kannst auch Bilder hochladen. Wir verwenden https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.pngarrow-up-right, das nur unser Mini-Logo ist, das zeigt, wie Finetunes mit Unsloth erstellt werden:

  1. Lass uns dieses Bild herunterladen

  1. Dann lass uns die automatische Modelldownload-Funktion von llama.cpp verwenden, probiere dies für das 8B Instruct-Modell:

  1. Sobald du drin bist, siehst du den untenstehenden Bildschirm:

  1. Lade das Bild über /image PFAD z. B. /image unsloth.png drücke dann ENTER

  1. Wenn du ENTER drückst, erscheint die Meldung "unsloth.png image loaded"

  1. Nun lass uns eine Frage stellen wie "Was ist dieses Bild?":

  1. Lade jetzt Bild 2 über /image picture.png drücke dann ENTER und frage "Was ist dieses Bild?"

  1. Und schließlich lass uns fragen, wie beide Bilder miteinander verbunden sind (es funktioniert!)

  1. Du kannst das Modell auch herunterladen über (nachdem du installiert hast pip install huggingface_hub hf_transfer ) HuggingFace's snapshot_download was für große Modelldownloads nützlich ist, da der automatische Downloader von llama.cpp möglicherweise langsamer ist. Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere beliebige Prompts. Für Instruct:

  1. Für Thinking:

🪄Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen

Für Qwen3-VL-235B-A22B werden wir llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

  1. Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

  2. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  3. Führe das Modell aus und probiere ein Prompt. Setze die korrekten Parameter für Thinking vs. Instruct.

Instruct:

Thinking:

  1. Bearbeiten, --ctx-size 16384 für die Kontextlänge, --n-gpu-layers 99 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.

circle-check

🐋 Docker: Qwen3-VL ausführen

Wenn du bereits Docker Desktop hast, um Unsloths Modelle von Hugging Face auszuführen, führe den folgenden Befehl aus und du bist fertig:

Oder du kannst die von Docker hochgeladenen Qwen3-VL-Modelle ausführen:

🦥 Qwen3-VL feinabstimmen

Unsloth unterstützt Fine-Tuning und Reinforcement Learning (RL) für Qwen3-VL einschließlich der größeren 32B- und 235B-Modelle. Dies umfasst Unterstützung für Fine-Tuning für Video- und Objekterkennung. Wie üblich macht Unsloth Qwen3-VL-Modelle 1,7x schneller mit 60 % weniger VRAM und 8x längeren Kontextlängen ohne Genauigkeitsverlust. Wir haben zwei Qwen3-VL (8B) Trainings-Notebooks erstellt, die du kostenlos auf Colab trainieren kannst:

circle-check

Das Ziel des GRPO-Notebooks ist es, ein Vision-Language-Modell mittels RL dazu zu bringen, mathematische Probleme anhand einer Bildeingabe wie unten zu lösen:

Diese Qwen3-VL-Unterstützung integriert auch unser neuestes Update für noch speichereffizienteres + schnelleres RL einschließlich unseres Standby-Funktion, das als einziges die Geschwindigkeitsverschlechterung im Vergleich zu anderen Implementierungen einschränkt. Du kannst mehr darüber lesen, wie man Vision-LLMs mit RL trainiert, in unserem VLM GRPO-Leitfaden.

Multi-Bild-Training

Um Qwen3-VL mit mehreren Bildern feinzujustieren oder zu trainieren, ist die einfachste Änderung,

durch:

Die Verwendung von map löst die Standardisierung des Datensatzes und Arrow-Verarbeitungsregeln aus, die strikt und komplizierter zu definieren sein können.

Zuletzt aktualisiert

War das hilfreich?