💜Qwen3.6 - Comment l'exécuter localement

Exécutez le nouveau modèle Qwen3.6-35-A3B localement !

Qwen3.6 est la nouvelle famille de modèles multimodaux à raisonnement hybride d’Alibaba, incluant Qwen3.6-35B-A3B. Il offre des performances de premier plan pour sa taille, prend en charge un contexte de 256K dans 201 langues et propose des modes de réflexion et sans réflexion. Il excelle dans le codage agentique, la vision et les tâches de chat. 35B-A3B GGUF peut fonctionner sur un Mac avec 22 Go de RAM.

Lancer les tutoriels Qwen3.6

Les téléchargements utilisent Unsloth Dynamic 2.0 pour des performances de quantification SOTA - les quantifications sont donc calibrées sur des jeux de données d’utilisation réels et les couches importantes sont remontées en précision. Merci à Qwen d’avoir donné à Unsloth un accès dès le premier jour.

⚙️ Guide d’utilisation

Tableau : exigences matérielles pour l’inférence (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)

Qwen3.6
3 bits
4 bits
6 bits
8 bits
BF16

17 Go

23 Go

30 Go

38 Go

70 Go

Paramètres recommandés

  • Fenêtre de contexte maximale : 262,144 (peut être étendue à 1M via YaRN)

  • presence_penalty = 0.0 à 2.0 par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner une légère baisse des performances

  • Longueur de sortie adéquate: 32,768 tokens pour la plupart des requêtes

Si vous obtenez du charabia, votre longueur de contexte est peut-être réglée trop bas. Ou essayez d’utiliser --cache-type-k bf16 --cache-type-v bf16 ce qui pourrait aider.

Comme Qwen3.6 est à raisonnement hybride, les modes réflexion et sans réflexion ont des paramètres différents :

Mode réflexion :

Tâches générales
Tâches de codage précises (p. ex. WebDev)

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 0.0

repetition penalty = désactivée ou 1.0

repetition penalty = désactivée ou 1.0

Mode réflexion pour les tâches générales :

Mode réflexion pour les tâches de codage précises :

Paramètres du mode Instruct (sans réflexion) :

Tâches générales
Tâches de raisonnement

temperature = 0.7

temperature = 1.0

top_p = 0.8

top_p = 0.95

top_k = 20

top_k = 20

min_p = 0.0

min_p = 0.0

presence_penalty = 1.5

presence_penalty = 1.5

repetition penalty = désactivée ou 1.0

repetition penalty = désactivée ou 1.0

Instruct (sans réflexion) pour les tâches générales :

Instruct (sans réflexion) pour les tâches de raisonnement :

Tutoriels d’inférence Qwen3.6 :

Nous utiliserons Dynamic 4 bits UD_Q4_K_XL variantes GGUF pour les charges de travail d’inférence. Cliquez ci-dessous pour accéder aux instructions du modèle désigné :

Lancer dans Unsloth StudioLancer dans llama.cpp

🦥 Guide d’Unsloth Studio

Qwen3.6 peut être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur MacOS, Windows, Linux et :

1

Installer Unsloth

Exécutez dans votre terminal :

MacOS, Linux, WSL :

Windows PowerShell :

2

Lancer Unsloth

MacOS, Linux, WSL et Windows :

Puis ouvrez http://localhost:8888 (ou votre URL spécifique) dans votre navigateur.

3

Rechercher et télécharger Qwen3.6

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.

Puis allez dans l’onglet Studio Chat et recherchez Qwen3.6 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

4

Lancer Qwen3.6

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres.

Pour plus d’informations, vous pouvez consulter notre guide d’inférence Unsloth Studio.

🦙 Guides Llama.cpp

Qwen3.6-35B-A3B

Pour ce guide, nous utiliserons Dynamic 4 bits, qui fonctionne très bien sur un appareil avec 24 Go de RAM / un Mac pour une inférence rapide. Comme le modèle ne fait qu’environ 72 Go en précision F16 complète, nous n’aurons pas trop à nous soucier des performances. GGUF : Qwen3.6-35B-A3B-GGUF

Pour ces tutoriels, nous utiliserons llama.cpp pour une inférence locale rapide, surtout si vous avez un CPU.

🦙 Service llama-server & bibliothèque de complétion d’OpenAI

Pour déployer Qwen3.6 en production, nous utilisons llama-server Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

Puis, dans un nouveau terminal, après avoir fait pip install openai, faites :

💡 Comment activer ou désactiver la réflexion

Unsloth Studio dispose automatiquement d’un bouton bascule 'Think' pour les modèles de réflexion.

Dans llama.cpp, vous pouvez activer ou désactiver la réflexion en suivant les commandes ci-dessous. Utilisez 'true' et 'false' de manière interchangeable.

Voir le code ci-dessous pour activer / désactiver la réflexion dans llama-server:

Unsloth Studio a le bouton Think activé par défaut
OS llama-server :
Activer la réflexion
Désactiver la réflexion

Linux, MacOS, WSL :

Windows / Powershell :

À titre d’exemple, pour Qwen3.6-35B-A3B, afin de désactiver la réflexion (activée par défaut) :

Puis en Python :

👨‍💻 OpenAI Codex & Claude Code

Pour exécuter le modèle via des charges de travail locales d’agent de codage, vous pouvez suivre notre guide. Il suffit de changer le nom du modèle pour votre variante 'Qwen3.6' et de vous assurer de suivre les bons paramètres et instructions d’utilisation de Qwen3.6. Utilisez le llama-server que nous venons juste de configurer à l’instant.

Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple Crée un jeu Python pour les échecs :

📊 Benchmarks

Benchmarks Unsloth GGUF

Les benchmarks de divergence KL pour les GGUF Qwen3.6-35-A3B seront mis à jour ici. Voici nos précédents pour Qwen3.5 :

35B-A3B - benchmarks KLD (plus bas est meilleur)

Comme Qwen3.6 a la même architecture que Qwen3.5, vous pouvez vous référer à nos benchmarks précédents Qwen3.5 :

Benchmarks Qwen3.5 GGUF

Benchmarks officiels de Qwen

Qwen3.6-35B-A3B

Mis à jour

Ce contenu vous a-t-il été utile ?