🌠Qwen3-2507 : Guide d'exécution locale
Exécutez Qwen3-30B-A3B-2507 et les versions 235B-A22B Thinking et Instruct localement sur votre appareil !
Qwen a publié des mises à jour 2507 (juillet 2025) pour leurs Qwen3 modèles 4B, 30B et 235B, introduisant des variantes « pensantes » et « non pensantes ». Le modèle non pensant 'Qwen3-30B-A3B-Instruct-2507' et 'Qwen3-235B-A22B-Instruct-2507' dispose d'une fenêtre de contexte de 256K, d'une meilleure capacité à suivre les instructions, de capacités multilingues et d'un alignement amélioré.
Les modèles pensants 'Qwen3-30B-A3B-Thinking-2507' et 'Qwen3-235B-A22B-Thinking-2507' excellent en raisonnement, le 235B obtenant des résultats SOTA en logique, mathématiques, sciences, codage et tâches académiques avancées.
Unsloth prend également désormais en charge l'affinage et Apprentissage par renforcement (RL) des modèles Qwen3-2507 — 2x plus rapide, avec 70 % de VRAM en moins et des longueurs de contexte 8x plus longues
Exécuter 30B-A3BExécuter 235B-A22BAffiner Qwen3-2507
Unsloth Dynamic 2.0 GGUFs :
⚙️Meilleures pratiques
Les paramètres pour les modèles Thinking et Instruct sont différents. Le modèle thinking utilise temperature = 0.6, mais le modèle instruct utilise temperature = 0.7 Le modèle thinking utilise top_p = 0.95, mais le modèle instruct utilise top_p = 0.8
Pour obtenir des performances optimales, Qwen recommande ces paramètres :
Température = 0,7
Température = 0.6
Min_P = 0.00 (la valeur par défaut de llama.cpp est 0.1)
Min_P = 0.00 (la valeur par défaut de llama.cpp est 0.1)
Top_P = 0.80
Top_P = 0,95
TopK = 20
TopK = 20
presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez utiliser ceci)
presence_penalty = 0.0 à 2.0 (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez utiliser ceci)
Longueur de sortie adéquate : Utilisez une longueur de sortie de 32,768 tokens pour la plupart des requêtes, ce qui est suffisant pour la plupart des requêtes.
Modèle de chat pour les deux Thinking (thinking a <think></think>) et Instruct est ci-dessous :
📖 Exécuter les tutoriels Qwen3-30B-A3B-2507
Ci-dessous se trouvent des guides pour les Réflexion et Instruct versions du modèle.
Instruct : Qwen3-30B-A3B-Instruct-2507
Étant donné qu'il s'agit d'un modèle non pensant, il n'est pas nécessaire de définir thinking=False et le modèle ne génère pas <think> </think> blocs.
⚙️Meilleures pratiques
Pour obtenir des performances optimales, Qwen recommande les paramètres suivants :
Nous suggérons d'utiliser
temperature=0.7, top_p=0.8, top_k=20, et min_p=0.0presence_penaltyentre 0 et 2 si le framework le supporte afin de réduire les répétitions sans fin.temperature = 0.7top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0.1)top_p = 0.80presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Prend en charge jusqu'à
262,144contexte nativement mais vous pouvez le définir sur32,768tokens pour une utilisation moindre de RAM
🦙 Ollama : Exécuter le tutoriel Qwen3-30B-A3B-Instruct-2507
Installez
ollamasi vous ne l'avez pas déjà fait ! Vous ne pouvez exécuter que des modèles jusqu'à 32B de taille.
Exécutez le modèle ! Notez que vous pouvez appeler
ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dansparamsdans notre téléversement Hugging Face !
✨ Llama.cpp : Exécuter le tutoriel Qwen3-30B-A3B-Instruct-2507
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Vous pouvez récupérer directement depuis HuggingFace via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.
Thinking : Qwen3-30B-A3B-Thinking-2507
Ce modèle prend en charge uniquement le mode thinking et une fenêtre de contexte de 256K nativement. Le modèle de chat par défaut ajoute <think> automatiquement, donc vous pouvez voir seulement une balise de fermeture </think> dans la sortie.
⚙️Meilleures pratiques
Pour obtenir des performances optimales, Qwen recommande les paramètres suivants :
Nous suggérons d'utiliser
temperature=0.6, top_p=0.95, top_k=20, et min_p=0.0presence_penaltyentre 0 et 2 si le framework le supporte afin de réduire les répétitions sans fin.température = 0.6top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0.1)top_p = 0.95presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Prend en charge jusqu'à
262,144contexte nativement mais vous pouvez le définir sur32,768tokens pour une utilisation moindre de RAM
🦙 Ollama : Exécuter le tutoriel Qwen3-30B-A3B-Instruct-2507
Installez
ollamasi vous ne l'avez pas déjà fait ! Vous ne pouvez exécuter que des modèles jusqu'à 32B de taille. Pour exécuter les modèles complets 235B-A22B, voir ici.
Exécutez le modèle ! Notez que vous pouvez appeler
ollama servedans un autre terminal s'il échoue ! Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dansparamsdans notre téléversement Hugging Face !
✨ Llama.cpp : Exécuter le tutoriel Qwen3-30B-A3B-Instruct-2507
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
Vous pouvez extraire directement depuis Hugging Face via :
Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transfer). Vous pouvez choisir UD_Q4_K_XL ou d'autres versions quantifiées.
📖 Exécuter Qwen3-235B-A22B-2507 Tutoriels
Ci-dessous se trouvent des guides pour les Réflexion et Instruct versions du modèle.
Thinking : Qwen3-235B-A22B-Thinking-2507
Ce modèle prend en charge uniquement le mode thinking et une fenêtre de contexte de 256K nativement. Le modèle de chat par défaut ajoute <think> automatiquement, donc vous pouvez voir seulement une balise de fermeture </think> dans la sortie.
⚙️ Meilleures pratiques
Pour obtenir des performances optimales, Qwen recommande ces paramètres pour le modèle Thinking :
température = 0.6top_k = 20min_p = 0.00(la valeur par défaut de llama.cpp est 0.1)top_p = 0.95presence_penalty = 0.0 à 2.0(la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l'utiliser) Essayez 1.0 par exemple.Longueur de sortie adéquate : Utilisez une longueur de sortie de
32,768tokens pour la plupart des requêtes, ce qui est suffisant pour la plupart des requêtes.
✨Exécuter Qwen3-235B-A22B-Thinking via llama.cpp :
Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une multitude d'options.
Si vous voulez une version non quantifiée en pleine précision, utilisez notre Q8_K_XL, Q8_0 ou BF16 versions !
Obtenez le dernier
llama.cppsur GitHub ici. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFFsi vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.Vous pouvez utiliser directement llama.cpp pour télécharger le modèle mais je suggère normalement d'utiliser
huggingface_hubPour utiliser llama.cpp directement, faites :Téléchargez le modèle via (après avoir installé
pip install huggingface_hub hf_transferNous suivons des étapes similaires à ci-dessus cependant cette fois nous devrons également effectuer des étapes supplémentaires car le modèle est si volumineux.allow_patterns = ["*UD-Q4_K_XL*"],
éditer
--threads -1pour le nombre de threads CPU,--ctx-size262114 pour la longueur de contexte,--n-gpu-layers 99pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
Utilisez -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Instruct : Qwen3-235B-A22B-Instruct-2507
Étant donné qu'il s'agit d'un modèle non pensant, il n'est pas nécessaire de définir thinking=False et le modèle ne génère pas <think> </think> blocs.
⚙️Meilleures pratiques
Pour obtenir des performances optimales, nous recommandons les paramètres suivants :
1. Paramètres d'échantillonnage : Nous suggérons d'utiliser temperature=0.7, top_p=0.8, top_k=20, et min_p=0. presence_penalty entre 0 et 2 si le framework le supporte afin de réduire les répétitions sans fin.
2. Longueur de sortie adéquate : Nous recommandons d'utiliser une longueur de sortie de 16,384 tokens pour la plupart des requêtes, ce qui est adéquat pour les modèles instruct.
3. Standardiser le format de sortie : Nous recommandons d'utiliser des invites pour standardiser les sorties du modèle lors des benchmarks.
Problèmes de mathématiques : Inclure
Veuillez raisonner étape par étape, et mettre votre réponse finale dans \boxed{}.dans l'invite.Questions à choix multiple : Ajoutez la structure JSON suivante à l'invite pour standardiser les réponses : "Veuillez indiquer votre choix dans le champ `answer` avec uniquement la lettre du choix, par ex., `"answer": "C".
✨Exécuter Qwen3-235B-A22B-Instruct via llama.cpp :
Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une multitude d'options.
{% hint style="success" %} Si vous voulez une version non quantifiée en pleine précision, utilisez notre Q8_K_XL, Q8_0 ou BF16 versions ! {% endhint %}
Obtenez le dernier `
llama.cppsur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez suivre les instructions de compilation ci-dessous également. Changez-DGGML_CUDA=ONen-DGGML_CUDA=OFF` si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.
2. Vous pouvez utiliser directement llama.cpp pour télécharger le modèle mais je suggère normalement d'utiliser huggingface_hub Pour utiliser llama.cpp directement, faites :\
3. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer Nous suivons des étapes similaires à ci-dessus cependant cette fois nous devrons également effectuer des étapes supplémentaires car le modèle est si volumineux.
4. Exécutez le modèle et essayez n'importe quelle invite. 5. Éditez --threads -1 pour le nombre de threads CPU, --ctx-size 262114 pour la longueur de contexte, --n-gpu-layers 99 pour le déchargement GPU sur le nombre de couches. Essayez de l'ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n'avez qu'une inférence CPU.
Utilisez -ot ".ffn_.*_exps.=CPU" pour décharger toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
🛠️ Améliorer la vitesse de génération
Si vous avez plus de VRAM, vous pouvez essayer de décharger plus de couches MoE, ou de décharger des couches complètes elles-mêmes.
Normalement, -ot ".ffn_.*_exps.=CPU" décharge toutes les couches MoE vers le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l'expression regex pour décharger plus de couches si vous disposez de plus de capacité GPU.
Si vous avez un peu plus de mémoire GPU, essayez -ot ".ffn_(up|down)_exps.=CPU" Cela décharge les couches MoE de projection up et down.
Essayez -ot ".ffn_(up)_exps.=CPU" si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.
Vous pouvez aussi personnaliser le regex, par exemple -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" signifie décharger les couches MoE gate, up et down mais seulement à partir de la 6e couche.
Le dernière version de llama.cpp introduit également le mode haut débit. Utilisez llama-parallel. Lisez-en davantage ici. Vous pouvez aussi quantifier le cache KV en 4 bits par exemple pour réduire les mouvements de VRAM / RAM, ce qui peut aussi accélérer le processus de génération. Le prochain section parle de la quantification du cache KV.
📐Comment adapter un long contexte
Pour adapter un contexte plus long, vous pouvez utiliser la quantification du cache KV pour quantifier les caches K et V en moins de bits. Cela peut aussi augmenter la vitesse de génération en réduisant les mouvements de données RAM / VRAM. Les options autorisées pour la quantification K (par défaut est f16) incluent ci-dessous.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Vous devriez utiliser les _1 variantes pour une précision quelque peu accrue, bien que ce soit légèrement plus lent. Par ex. q4_1, q5_1 Donc essayez --cache-type-k q4_1
Vous pouvez aussi quantifier le cache V, mais vous devrez compiler llama.cpp avec le support Flash Attention via -DGGML_CUDA_FA_ALL_QUANTS=ON, et utiliser --flash-attn pour l'activer. Après avoir installé Flash Attention, vous pouvez alors utiliser --cache-type-v q4_1
🦥 Affinage de Qwen3-2507 avec Unsloth
Unsloth rend Qwen3 et l'affinage de Qwen3-2507 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 8x plus longues. Étant donné que Qwen3-2507 n'a été publié que dans une variante 30B, cela signifie que vous aurez besoin d'environ un GPU A100 40GB pour affiner le modèle en utilisant QLoRA (4 bits).
Pour un notebook, comme le modèle ne peut pas tenir dans les GPU gratuits 16GB de Colab, vous devrez utiliser un A100 40GB. Vous pouvez utiliser notre notebook Conversationnel mais remplacer le jeu de données par n'importe lequel que vous utilisez. Cette fois vous n'avez pas besoin d'inclure le raisonnement dans votre jeu de données car le modèle n'a pas de raisonnement.
Si vous avez une ancienne version d'Unsloth et/ou si vous effectuez le fine-tuning localement, installez la dernière version d'Unsloth :
Affinage des modèles MOE Qwen3-2507
La prise en charge de l'affinage inclut les modèles MOE : 30B-A3B et 235B-A22B. Qwen3-30B-A3B fonctionne sur 30GB de VRAM avec Unsloth. Pour l'affinage des MoE - ce n'est probablement pas une bonne idée d'affiner la couche routeur donc nous l'avons désactivée par défaut.
Notebooks Qwen3-2507-4B pour : Réflexion et Instruct
Le 30B-A3B tient dans 30GB de VRAM, mais il se peut que vous manquiez de RAM ou d'espace disque puisque le modèle complet en 16 bits doit être téléchargé et converti en 4 bits à la volée pour l'affinage QLoRA. Cela est dû à des problèmes d'importation directe des modèles MOE 4-bit BnB. Cela n'affecte que les modèles MOE.
Si vous affinez les modèles MOE, veuillez utiliser FastModel et non FastLanguageModel

Mis à jour
Ce contenu vous a-t-il été utile ?

