🌠Qwen3-VL: Anleitung zum Ausführen

Lerne, Qwen3-VL lokal mit Unsloth feinabzustimmen und auszuführen.

Qwen3-VL ist Qwens neues Visionsmodell mit Anleitung und Denken Versionen. Die 2B-, 4B-, 8B- und 32B-Modelle sind dicht (dense), während 30B und 235B MoE sind. Das 235B Thinking-LLM liefert SOTA-Visions- und Coding-Leistung, die mit GPT-5 (hoch) und Gemini 2.5 Pro konkurriert. Qwen3-VL verfügt über Vision-, Video- und OCR-Fähigkeiten sowie über einen Kontext von 256K (kann auf 1M erweitert werden). Unslotharrow-up-right unterstützt Qwen3-VL Feintuning und RL. Trainiere Qwen3-VL (8B) kostenlos mit unseren Notebooks.

Qwen3-VL ausführenQwen3-VL feintunen

🖥️ Qwen3-VL ausführen

Um das Modell in llama.cpp, vLLM, Ollama usw. auszuführen, sind hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

Qwen empfiehlt diese Einstellungen für beide Modelle (sie unterscheiden sich ein wenig für Instruct vs. Thinking):

Instruct-Einstellungen:
Thinking-Einstellungen:

Temperatur = 0,7

Temperatur = 1,0

Top_P = 0,8

Top_P = 0,95

presence_penalty = 1,5

presence_penalty = 0,0

Ausgabelänge = 32768 (bis zu 256K)

Ausgabelänge = 40960 (bis zu 256K)

Top_K = 20

Top_K = 20

Qwen3-VL verwendete für ihre Benchmark-Zahlen auch die untenstehenden Einstellungen, wie erwähnt auf GitHubarrow-up-right.

Instruct-Einstellungen:

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

Thinking-Einstellungen:

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛Fehlerbehebungen für Chat-Vorlagen

Bei Unsloth liegt uns Genauigkeit am meisten am Herzen, daher haben wir untersucht, warum nach der 2. Runde beim Ausführen der Thinking-Modelle llama.cpp abstürzen würde, wie unten zu sehen ist:

Der Fehlercode:

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

Wir haben die Thinking-Chat-Vorlage für die VL-Modelle erfolgreich repariert und daher alle Thinking-Quantisierungen sowie Unsloths Quants erneut hochgeladen. Sie sollten jetzt nach dem 2. Gespräch alle funktionieren - andere Quants werden nach dem 2. Gespräch fehlschlagen zu laden.

Qwen3-VL Unsloth Uploads:

Qwen3-VL wird seit dem 30. Oktober 2025 von llama.cpp für GGUFs unterstützt, sodass du sie lokal ausführen kannst!

📖 Llama.cpp: Qwen3-VL Tutorial ausführen

  1. Holen Sie sich das neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

  1. Lass uns zuerst ein Bild holen! Du kannst auch Bilder hochladen. Wir verwenden https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.pngarrow-up-right, das nur unser Mini-Logo ist, das zeigt, wie Feintunings mit Unsloth erstellt werden:

  1. Lass uns dieses Bild herunterladen

  1. Dann verwenden wir die automatische Modell-Download-Funktion von llama.cpp, probiere dies für das 8B Instruct-Modell:

  1. Sobald du drin bist, siehst du den folgenden Bildschirm:

  1. Lade das Bild hoch über /image PATH z. B. /image unsloth.png dann drücke ENTER

  1. Wenn du ENTER drückst, wird "unsloth.png image loaded" erscheinen

  1. Nun lass uns eine Frage stellen wie "Was ist auf diesem Bild?":

  1. Lade jetzt Bild 2 über /image picture.png dann drücke ENTER und frage "Was ist auf diesem Bild?"

  1. Und schließlich fragen wir, wie beide Bilder miteinander verbunden sind (es funktioniert!)

  1. Du kannst das Modell auch herunterladen über (nach Installation von Laden Sie das Modell herunter via (nach der Installation von ) HuggingFaces snapshot_download was nützlich für große Modelldownloads ist, da der automatische Downloader von llama.cpp möglicherweise hinterherhinkt. Du kannst Q4_K_M oder andere quantisierte Versionen wählen.

  1. Führe das Modell aus und probiere beliebige Prompts. Für Instruct:

  1. Für Thinking:

🪄Qwen3-VL-235B-A22B und Qwen3-VL-30B-A3B ausführen

Für Qwen3-VL-235B-A22B werden wir llama.cpp für optimierte Inferenz und eine Vielzahl von Optionen verwenden.

  1. Wir folgen ähnlichen Schritten wie oben, jedoch müssen wir dieses Mal zusätzliche Schritte durchführen, weil das Modell so groß ist.

  2. bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht. Laden Sie das Modell herunter via (nach der Installation von ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

  3. Führe das Modell aus und teste ein Prompt. Stelle die korrekten Parameter für Thinking vs. Instruct ein.

Instruct:

Thinking:

  1. Bearbeiten, für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 --n-gpu-layers 99 --n-gpu-layers 2

circle-check

🐋 Docker: Qwen3-VL ausführen

Wenn du bereits Docker Desktop hast, um Unsloths Modelle von Hugging Face auszuführen, führe den folgenden Befehl aus und du bist fertig:

Oder du kannst die von Docker hochgeladenen Qwen3-VL-Modelle ausführen:

🦥 Qwen3-VL feintunen

Unsloth unterstützt Feintuning und Reinforcement Learning (RL) für Qwen3-VL, einschließlich der größeren 32B- und 235B-Modelle. Dies umfasst Unterstützung für Feintuning für Video- und Objekterkennung. Wie üblich macht Unsloth Qwen3-VL-Modelle 1,7x schneller mit 60% weniger VRAM und 8x längeren Kontextlängen ohne Genauigkeitsverschlechterung trainierbar. Wir haben zwei Qwen3-VL (8B) Trainings-Notebooks erstellt, die du kostenlos auf Colab trainieren kannst:

circle-check

Das Ziel des GRPO-Notebooks ist es, ein Vision-Language-Modell mithilfe von RL dazu zu bringen, Mathematikaufgaben anhand einer Bildeingabe wie unten zu lösen:

Diese Qwen3-VL-Unterstützung integriert auch unser neuestes Update für noch speichereffizienteres und schnelleres RL einschließlich unseres Standby-Features, das einzigartig die Geschwindigkeitsverschlechterung im Vergleich zu anderen Implementierungen begrenzt. Du kannst mehr darüber lesen, wie man Vision-LLMs mit RL trainiert, in unserem VLM GRPO-Leitfaden.

Multi-Image-Training

Um Qwen3-VL mit mehreren Bildern zu feintunen oder zu trainieren, ist die einfachste Änderung,

mit:

Die Verwendung von map löst die Standardisierung des Datensatzes und Arrow-Verarbeitungsregeln aus, die streng sein und komplizierter zu definieren sein können.

Zuletzt aktualisiert

War das hilfreich?