💜Qwen3.6 - Comment l'exécuter localement
Exécutez le nouveau modèle Qwen3.6-35-A3B localement !
Qwen3.6 est la nouvelle famille de modèles multimodaux à raisonnement hybride d’Alibaba, incluant Qwen3.6-35B-A3B. Il offre des performances de premier plan pour sa taille, prend en charge un contexte de 256K dans 201 langues et propose des modes de réflexion et sans réflexion. Il excelle dans le codage agentique, la vision et les tâches de chat. 35B-A3B GGUF peut fonctionner sur un Mac avec 22 Go de RAM.
Les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - les quantifications sont donc calibrées sur des jeux de données d’utilisation réels et les couches importantes sont remontées en précision. Merci à Qwen d’avoir donné à Unsloth un accès dès le premier jour.
⚙️ Guide d’utilisation
Tableau : exigences matérielles pour l’inférence (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner via un déchargement sur SSD/HDD, mais l’inférence sera plus lente.
Paramètres recommandés
Fenêtre de contexte maximale :
262,144(peut être étendue à 1M via YaRN)presence_penalty = 0.0 à 2.0par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner une légère baisse des performancesLongueur de sortie adéquate:
32,768tokens pour la plupart des requêtes
Si vous obtenez du charabia, votre longueur de contexte est peut-être réglée trop bas. Ou essayez d’utiliser --cache-type-k bf16 --cache-type-v bf16 ce qui pourrait aider.
Comme Qwen3.6 est à raisonnement hybride, les modes réflexion et sans réflexion ont des paramètres différents :
Mode réflexion :
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 0.0
repetition penalty = désactivée ou 1.0
repetition penalty = désactivée ou 1.0
Mode réflexion pour les tâches générales :
Mode réflexion pour les tâches de codage précises :
Paramètres du mode Instruct (sans réflexion) :
temperature = 0.7
temperature = 1.0
top_p = 0.8
top_p = 0.95
top_k = 20
top_k = 20
min_p = 0.0
min_p = 0.0
presence_penalty = 1.5
presence_penalty = 1.5
repetition penalty = désactivée ou 1.0
repetition penalty = désactivée ou 1.0
Pour désactiver la réflexion / le raisonnement, utilisez --chat-template-kwargs '{"enable_thinking":false}'
Instruct (sans réflexion) pour les tâches générales :
Instruct (sans réflexion) pour les tâches de raisonnement :
Tutoriels d’inférence Qwen3.6 :
Nous utiliserons Dynamic 4 bits UD_Q4_K_XL variantes GGUF pour les charges de travail d’inférence. Cliquez ci-dessous pour accéder aux instructions du modèle désigné :
Lancer dans Unsloth StudioLancer dans llama.cpp
presence_penalty = 0.0 à 2.0 par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner une légère baisse des performances.
Actuellement, aucun GGUF Qwen3.6 ne fonctionne dans Ollama en raison de fichiers mmproj de vision séparés. Utilisez des backends compatibles avec llama.cpp.
🦥 Guide d’Unsloth Studio
Qwen3.6 peut être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur MacOS, Windows, Linux et :
Rechercher, télécharger, exécuter des GGUF et des modèles safetensor
Auto-réparation appel d’outils + recherche web
Exécution de code (Python, Bash)
Inférence automatique réglage des paramètres (temp, top-p, etc.)
Inférence rapide CPU + GPU via llama.cpp
Entraîner des LLM 2x plus rapide avec 70 % de VRAM en moins

Rechercher et télécharger Qwen3.6
Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.
Puis allez dans l’onglet Studio Chat et recherchez Qwen3.6 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.
Lancer Qwen3.6
Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres.
Pour plus d’informations, vous pouvez consulter notre guide d’inférence Unsloth Studio.

🦙 Guides Llama.cpp
Qwen3.6-35B-A3B
Pour ce guide, nous utiliserons Dynamic 4 bits, qui fonctionne très bien sur un appareil avec 24 Go de RAM / un Mac pour une inférence rapide. Comme le modèle ne fait qu’environ 72 Go en précision F16 complète, nous n’aurons pas trop à nous soucier des performances. GGUF : Qwen3.6-35B-A3B-GGUF
Pour ces tutoriels, nous utiliserons llama.cpp pour une inférence locale rapide, surtout si vous avez un CPU.
🦙 Service llama-server & bibliothèque de complétion d’OpenAI
Pour déployer Qwen3.6 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :
Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :
💡 Comment activer ou désactiver la réflexion
Unsloth Studio dispose automatiquement d’un bouton bascule 'Think' pour les modèles de réflexion.
Dans llama.cpp, vous pouvez activer ou désactiver la réflexion en suivant les commandes ci-dessous. Utilisez 'true' et 'false' de manière interchangeable.
Voir le code ci-dessous pour activer / désactiver la réflexion dans llama-server:

Linux, MacOS, WSL :
Windows / Powershell :
À titre d’exemple, pour Qwen3.6-35B-A3B, afin de désactiver la réflexion (activée par défaut) :
Puis en Python :
👨💻 OpenAI Codex & Claude Code
Pour exécuter le modèle via des charges de travail locales d’agent de codage, vous pouvez suivre notre guide. Il suffit de changer le nom du modèle pour votre variante 'Qwen3.6' et de vous assurer de suivre les bons paramètres et instructions d’utilisation de Qwen3.6. Utilisez le llama-server que nous venons juste de configurer à l’instant.
Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple Crée un jeu Python pour les échecs :



📊 Benchmarks
Benchmarks Unsloth GGUF
Les benchmarks de divergence KL pour les GGUF Qwen3.6-35-A3B seront mis à jour ici. Voici nos précédents pour Qwen3.5 :

Comme Qwen3.6 a la même architecture que Qwen3.5, vous pouvez vous référer à nos benchmarks précédents Qwen3.5 :
Benchmarks Qwen3.5 GGUFBenchmarks officiels de Qwen
Qwen3.6-35B-A3B

Mis à jour
Ce contenu vous a-t-il été utile ?


