🌠Qwen3-VL : Guide pour exécution

Apprenez à affiner et exécuter Qwen3-VL localement avec Unsloth.

Qwen3-VL est les nouveaux modèles de vision de Qwen avec instruire et réflexion versions. Les modèles 2B, 4B, 8B et 32B sont denses, tandis que 30B et 235B sont MoE. Le LLM 235B thinking offre des performances SOTA en vision et en codage rivalisant avec GPT-5 (high) et Gemini 2.5 Pro. Qwen3-VL dispose de capacités de vision, de vidéo et d'OCR ainsi que d'un contexte de 256K (peut être étendu à 1M). Unsloth prend en charge le fine-tuning de Qwen3-VL et RL. Entraînez Qwen3-VL (8B) gratuitement avec nos carnets.

Exécution de Qwen3-VL Fine-tuning de Qwen3-VL

🖥️ Exécution de Qwen3-VL

Pour exécuter le modèle dans llama.cpp, vLLM, Ollama etc., voici les paramètres recommandés :

⚙️ Paramètres recommandés

Qwen recommande ces paramètres pour les deux modèles (ils sont un peu différents pour Instruct vs Thinking) :

Paramètres Instruct :

Paramètres Thinking :

Température = 0,7

Température = 1.0

Top_P = 0.8

Top_P = 0,95

presence_penalty = 1.5

presence_penalty = 0.0

Longueur de sortie = 32768 (jusqu'à 256K)

Longueur de sortie = 40960 (jusqu'à 256K)

Top_K = 20

Qwen3-VL a également utilisé les paramètres ci-dessous pour leurs chiffres de benchmark, comme mentionné sur GitHub.

Paramètres Instruct :

export greedy='false'
export seed=3407
export top_p=0.8
export top_k=20
export temperature=0.7
export repetition_penalty=1.0
export presence_penalty=1.5
export out_seq_length=32768

Paramètres Thinking :

export greedy='false'
export seed=1234
export top_p=0.95
export top_k=20
export temperature=1.0
export repetition_penalty=1.0
export presence_penalty=0.0
export out_seq_length=40960

🐛Corrections de bugs du modèle de chat

Chez Unsloth, nous accordons la plus grande importance à la précision, nous avons donc enquêté sur la raison pour laquelle après le 2e tour d'exécution des modèles Thinking, llama.cpp se bloquait, comme montré ci-dessous :

Le code d'erreur :

terminate called after throwing an instance of 'std::runtime_error'
  what():  Value is not callable: null at row 63, column 78:
            {%- if '</think>' in content %}
                {%- set reasoning_content = ((content.split('</think>')|first).rstrip('\n').split('<think>')|last).lstrip('\n') %}
                                                                             ^

Nous avons corrigé avec succès le template de chat Thinking pour les modèles VL, nous avons donc re-téléversé tous les quants Thinking et les quants d'Unsloth. Ils devraient maintenant tous fonctionner après la 2e conversation - d'autres quants échoueront à se charger après la 2e conversation.

Téléversements Qwen3-VL Unsloth:

Qwen3-VL est désormais pris en charge pour les GGUF par llama.cpp depuis le 30 octobre 2025, vous pouvez donc les exécuter localement !

GGUF dynamiques (pour exécuter)

4-bit BnB Unsloth Dynamic

16-bit pleine précision

📖 Llama.cpp : Tutoriel pour exécuter Qwen3-VL

Obtenez le dernier llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous souhaitez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez normalement - le support Metal est activé par défaut.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/llama-* llama.cpp

Commençons par obtenir une image ! Vous pouvez aussi téléverser des images. Nous allons utiliser https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png, qui n'est que notre mini logo montrant comment les finetunes sont faits avec Unsloth :

Téléchargeons cette image

wget https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/unsloth%20made%20with%20love.png -O unsloth.png

Récupérons la 2e image à https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg

wget https://files.worldwildlife.org/wwfcmsprod/images/Sloth_Sitting_iStock_3_12_2014/story_full_width/8l7pbjmj29_iStock_000011145477Large_mini__1_.jpg -O picture.png

Ensuite, utilisons la fonctionnalité de téléchargement automatique de modèles de llama.cpp, essayez ceci pour le modèle 8B Instruct :

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192

Une fois dedans, vous verrez l'écran ci-dessous :

Chargez l'image via /image PATH c.-à-d. /image unsloth.png puis appuyez sur ENTRÉE

Lorsque vous appuyez sur ENTRÉE, il dira "unsloth.png image loaded"

Maintenant posons une question comme "Qu'est-ce que cette image ?" :

Maintenant chargez la photo 2 via /image picture.png puis appuyez sur ENTRÉE et demandez "Qu'est-ce que cette image ?"

Et enfin demandons comment les deux images sont liées (ça fonctionne !)

Les deux images sont directement liées car elles présentent toutes deux le paresseux arboricole, qui est le sujet central du projet « made with unsloth ». 

- La première image est le logo officiel du projet « made with unsloth ». Elle présente un personnage stylisé et cartoon de paresseux arboricole à l'intérieur d'un cercle vert, avec le texte « made with unsloth » à côté. Il s'agit de l'identité visuelle du projet.
- La seconde image est une photographie d'un véritable paresseux arboricole dans son habitat naturel. Cette photo capture l'apparence physique et le comportement de l'animal dans la nature.

La relation entre les deux images est que le logo (image 1) est une représentation numérique ou un symbole utilisé pour promouvoir le projet « made with unsloth », tandis que la photographie (image 2) est une représentation réelle du paresseux arboricole. Le projet utilise vraisemblablement le personnage du logo comme icône ou mascotte, et la photographie sert à illustrer à quoi ressemble le paresseux arboricole dans son environnement naturel.

Vous pouvez également télécharger le modèle via (après avoir installé pip install huggingface_hub hf_transfer ) le snapshot_download de HuggingFace, qui est utile pour les téléchargements de gros modèles, puisque le téléchargeur automatique de llama.cpp peut être lent.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    Vous pouvez choisir Q4_K_M, ou d'autres versions quantifiées.
    repo_id   = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Ou "unsloth/Qwen3-VL-8B-Thinking-GGUF"
    allow_patterns = ["*UD-Q4_K_XL*"],
)

local_dir = "unsloth/Qwen3-VL-8B-Instruct-GGUF", # Ou "unsloth/Qwen3-VL-8B-Thinking-GGUF" Exécutez le modèle et essayez n'importe quel prompt.

./llama.cpp/llama-mtmd-cli \
    Pour Instruct :
    --model unsloth/Qwen3-VL-8B-Instruct-GGUF/Qwen3-VL-8B-Instruct-UD-Q4_K_XL.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192

--mmproj unsloth/Qwen3-VL-8B-Instruct-GGUF/mmproj-F16.gguf \:

./llama.cpp/llama-mtmd-cli \
    Pour Thinking
    --model unsloth/Qwen3-VL-8B-Thinking-GGUF/Qwen3-VL-8B-Thinking-UD-Q4_K_XL.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \
    --ctx-size 8192

🪄--presence-penalty 0.0 \

Exécution de Qwen3-VL-235B-A22B et Qwen3-VL-30B-A3B

Pour Qwen3-VL-235B-A22B, nous utiliserons llama.cpp pour une inférence optimisée et une pléthore d'options.

Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer Nous suivons des étapes similaires à celles ci‑dessus, cependant cette fois nous devrons également effectuer des étapes supplémentaires car le modèle est si volumineux.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    ). Vous pouvez choisir UD-Q2_K_XL, ou d'autres versions quantifiées..
    repo_id = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
    local_dir = "unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF",
)

allow_patterns = ["*UD-Q2_K_XL*"],

Instruct :

./llama.cpp/llama-mtmd-cli \
    Exécutez le modèle et essayez un prompt. Réglez les paramètres corrects pour Thinking vs. Instruct.
    --model unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Instruct-UD-Q2_K_XL-00001-of-00002.gguf \
    --jinja \
    --top-p 0.8 \
    --top-k 20 \
    --temp 0.7 \
    --min-p 0.0 \
    --flash-attn on \
    --presence-penalty 1.5 \
    --ctx-size 8192 \

Thinking :

./llama.cpp/llama-mtmd-cli \
    --mmproj unsloth/Qwen3-VL-235B-A22B-Instruct-GGUF/mmproj-F16.gguf
    --model unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/UD-Q2_K_XL/Qwen3-VL-235B-A22B-Thinking-UD-Q2_K_XL-00001-of-00002.gguf \
    --n-gpu-layers 99 \
    --jinja \
    --top-p 0.95 \
    --top-k 20 \
    --temp 1.0 \
    --min-p 0.0 \
    --flash-attn on \
    --mmproj unsloth/Qwen3-VL-8B-Thinking-GGUF/mmproj-F16.gguf \
    --ctx-size 8192 \
    -ot ".ffn_.*_exps.=CPU"

--mmproj unsloth/Qwen3-VL-235B-A22B-Thinking-GGUF/mmproj-F16.gguf \ --ctx-size 16384 pour la longueur de contexte, --n-gpu-layers 99 pour le déchargement sur GPU du nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous avez uniquement une inférence CPU.

Utilisez --fit on introduit le 15 décembre 2025 pour une utilisation maximale de votre GPU et CPU.

Modifier, -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de placer toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous avez plus de capacité GPU.

Optionnellement, utilisez

🐋 Docker : Exécuter Qwen3-VL

Si vous avez déjà Docker Desktop, pour exécuter les modèles d'Unsloth depuis Hugging Face, exécutez la commande ci‑dessous et c'est tout :

docker model pull hf.co/unsloth/Qwen3-VL-8B-Instruct-GGUF:UD-Q4_K_XL

Ou vous pouvez exécuter les modèles Qwen3-VL téléchargés par Docker :

docker model run ai/qwen3-vl Fine-tuning de Qwen3-VL

🦥

Carnet RL GRPO/GSPO

Sauvegarder Qwen3-VL en GGUF fonctionne maintenant car llama.cpp le supporte !

Si vous voulez utiliser un autre modèle Qwen3-VL, changez simplement le modèle 8B pour le 2B, 32B, etc.

L'objectif du carnet GRPO est de faire résoudre par un modèle vision-langage des problèmes de mathématiques via RL à partir d'une image en entrée comme ci‑dessous : Ce support Qwen3-VL intègre également notre dernière mise à jour pour un RL encore plus économe en mémoire et plus rapide incluant notrefonctionnalité Standby , qui limite de manière unique la dégradation de la vitesse par rapport à d'autres implémentations. Vous pouvez en lire plus sur la façon d'entraîner des VLM avec RL dans notre.

guide VLM GRPO

Entraînement multi-images

Pour fine-tuner ou entraîner Qwen3-VL avec plusieurs images, le changement le plus simple consiste à remplacer
    ds_converted = ds.map(
)

convert_to_conversation,

par :

ds_converted = [convert_to_converation(sample) for sample in dataset]

PrécédentQwen3 SuivantQwen3-2507

Mis à jour il y a 12 heures

Ce contenu vous a-t-il été utile ?

hashtag🖥️ Exécution de Qwen3-VL

hashtag⚙️ Paramètres recommandés

hashtag🐛Corrections de bugs du modèle de chat

hashtagTéléversements Qwen3-VL Unsloth:

hashtag📖 Llama.cpp : Tutoriel pour exécuter Qwen3-VL

hashtag🪄--presence-penalty 0.0 \

hashtagOptionnellement, utilisez

hashtagdocker model run ai/qwen3-vl Fine-tuning de Qwen3-VL

hashtagguide VLM GRPO