# Qwen3.6 - Comment l'exécuter localement Qwen3.6 est la nouvelle famille de modèles multimodaux à raisonnement hybride d’Alibaba, incluant Qwen3.6-35B-A3B. Il offre des performances de premier plan pour sa taille, prend en charge un contexte de 256K dans 201 langues et propose des modes de réflexion et sans réflexion. Il excelle dans le codage agentique, la vision et les tâches de chat. [35B-A3B GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF) peut fonctionner sur un Mac avec 22 Go de RAM. Lancer les tutoriels Qwen3.6 Les téléchargements utilisent Unsloth [Dynamic 2.0](https://github.com/unslothai/docs/blob/main/basics/unsloth-dynamic-2.0-ggufs) pour des performances de quantification SOTA - les quantifications sont donc calibrées sur des jeux de données d’utilisation réels et les couches importantes sont remontées en précision. Merci à Qwen d’avoir donné à Unsloth un accès dès le premier jour. ### :gear: Guide d’utilisation **Tableau : exigences matérielles pour l’inférence** (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)

Qwen3.6	3 bits	4 bits	6 bits	8 bits	BF16
35B-A3B	17 Go	23 Go	30 Go	38 Go	70 Go

{% hint style="success" %} Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner via un déchargement sur SSD/HDD, mais l’inférence sera plus lente. {% endhint %} ### Paramètres recommandés * **Fenêtre de contexte maximale :** `262,144` (peut être étendue à 1M via YaRN) * `presence_penalty = 0.0 à 2.0` par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner **une légère baisse des performances** * **Longueur de sortie adéquate**: `32,768` tokens pour la plupart des requêtes {% hint style="info" %} Si vous obtenez du charabia, votre longueur de contexte est peut-être réglée trop bas. Ou essayez d’utiliser `--cache-type-k bf16 --cache-type-v bf16` ce qui pourrait aider. {% endhint %} Comme Qwen3.6 est à raisonnement hybride, les modes réflexion et sans réflexion ont des paramètres différents : #### Mode réflexion : | Tâches générales | Tâches de codage précises (p. ex. WebDev) | | -------------------------------------- | ----------------------------------------- | | temperature = 1.0 | temperature = 0.6 | | top\_p = 0.95 | top\_p = 0.95 | | top\_k = 20 | top\_k = 20 | | min\_p = 0.0 | min\_p = 0.0 | | presence\_penalty = 1.5 | presence\_penalty = 0.0 | | repetition penalty = désactivée ou 1.0 | repetition penalty = désactivée ou 1.0 | {% columns %} {% column %} Mode réflexion pour les tâches générales : {% code overflow="wrap" %} ```bash temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0 ``` {% endcode %} {% endcolumn %} {% column %} Mode réflexion pour les tâches de codage précises : {% code overflow="wrap" %} ```bash temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0 ``` {% endcode %} {% endcolumn %} {% endcolumns %} #### Paramètres du mode Instruct (sans réflexion) : | Tâches générales | Tâches de raisonnement | | -------------------------------------- | -------------------------------------- | | temperature = 0.7 | temperature = 1.0 | | top\_p = 0.8 | top\_p = 0.95 | | top\_k = 20 | top\_k = 20 | | min\_p = 0.0 | min\_p = 0.0 | | presence\_penalty = 1.5 | presence\_penalty = 1.5 | | repetition penalty = désactivée ou 1.0 | repetition penalty = désactivée ou 1.0 | {% hint style="warning" %} Pour [désactiver la réflexion / le raisonnement](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'` {% endhint %} {% columns %} {% column %} Instruct (sans réflexion) pour les tâches générales : {% code overflow="wrap" %} ```bash temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0 ``` {% endcode %} {% endcolumn %} {% column %} Instruct (sans réflexion) pour les tâches de raisonnement : {% code overflow="wrap" %} ```bash temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0 ``` {% endcode %} {% endcolumn %} {% endcolumns %} ## Tutoriels d’inférence Qwen3.6 : Nous utiliserons Dynamic 4 bits `UD_Q4_K_XL` variantes GGUF pour les charges de travail d’inférence. Cliquez ci-dessous pour accéder aux instructions du modèle désigné : Lancer dans Unsloth Studio Lancer dans llama.cpp {% hint style="warning" %} `presence_penalty = 0.0 à 2.0` par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner **une légère baisse des performances.** **Actuellement, aucun GGUF Qwen3.6 ne fonctionne dans Ollama en raison de fichiers mmproj de vision séparés. Utilisez des backends compatibles avec llama.cpp.** {% endhint %} ## 🦥 Guide d’Unsloth Studio Qwen3.6 peut être exécuté et affiné dans [Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio), notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur **MacOS, Windows**, Linux et : {% columns %} {% column %} * Rechercher, télécharger, [exécuter des GGUF](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) et des modèles safetensor * [**Auto-réparation** appel d’outils](https://unsloth.ai/docs/fr/nouveau/studio#execute-code--heal-tool-calling) + **recherche web** * [**Exécution de code**](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) (Python, Bash) * [Inférence automatique](https://unsloth.ai/docs/fr/nouveau/studio#model-arena) réglage des paramètres (temp, top-p, etc.) * Inférence rapide CPU + GPU via llama.cpp * [Entraîner des LLM](https://unsloth.ai/docs/fr/nouveau/studio#no-code-training) 2x plus rapide avec 70 % de VRAM en moins {% endcolumn %} {% column %}

{% endcolumn %} {% endcolumns %} {% stepper %} {% step %} #### Installer Unsloth Exécutez dans votre terminal : **MacOS, Linux, WSL :** ```bash curl -fsSL https://unsloth.ai/install.sh | sh ``` **Windows PowerShell :** ```bash irm https://unsloth.ai/install.ps1 | iex ``` {% hint style="success" %} **L’installation sera rapide et prendra environ 1 à 2 min.** {% endhint %} {% endstep %} {% step %} #### Lancer Unsloth **MacOS, Linux, WSL et Windows :** ```bash unsloth studio -H 0.0.0.0 -p 8888 ```

Puis ouvrez `http://localhost:8888` (ou votre URL spécifique) dans votre navigateur. {% endstep %} {% step %} #### Rechercher et télécharger Qwen3.6 Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment. Puis allez dans l’onglet [Studio Chat](https://unsloth.ai/docs/fr/nouveau/studio/chat) et recherchez Qwen3.6 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités. {% endstep %} {% step %} #### Lancer Qwen3.6 Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres. Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio/chat).

{% endstep %} {% endstepper %} ## 🦙 Guides Llama.cpp ### Qwen3.6-35B-A3B Pour ce guide, nous utiliserons Dynamic 4 bits, qui fonctionne très bien sur un appareil avec 24 Go de RAM / un Mac pour une inférence rapide. Comme le modèle ne fait qu’environ 72 Go en précision F16 complète, nous n’aurons pas trop à nous soucier des performances. GGUF : [Qwen3.6-35B-A3B-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF) Pour ces tutoriels, nous utiliserons [llama.cpp](https://llama.cpphttps/github.com/ggml-org/llama.cpp) pour une inférence locale rapide, surtout si vous avez un CPU. ### 🦙 Service llama-server & bibliothèque de complétion d’OpenAI Pour déployer Qwen3.6 en production, nous utilisons `llama-server` Dans un nouveau terminal, par exemple via tmux, déployez le modèle via : {% code overflow="wrap" %} ```bash ./llama.cpp/llama-server \\ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\ --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \\ --alias "unsloth/Qwen3.6-35B-A3B" \\ --temp 0.6 \\ --top-p 0.95 \\ --ctx-size 16384 \\ --top-k 20 \\ --min-p 0.00 \\ --port 8001 ``` {% endcode %} Puis, dans un nouveau terminal, après avoir fait `pip install openai`, faites : {% code overflow="wrap" %} ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Qwen3.6-35B-A3B", messages = [{"role": "user", "content": "Create a Snake game."},], ) print(completion.choices[0].message.content) ``` {% endcode %} ### 💡 Comment activer ou désactiver la réflexion {% columns %} {% column %} [**Unsloth Studio**](#unsloth-studio-guide) dispose automatiquement d’un bouton bascule 'Think' pour les modèles de réflexion. Dans llama.cpp, vous pouvez activer ou désactiver la réflexion en suivant les commandes ci-dessous. Utilisez '`true`' et '`false`' de manière interchangeable. Voir le code ci-dessous pour activer / désactiver la réflexion dans `llama-server`: {% endcolumn %} {% column %}

Unsloth Studio a le bouton Think activé par défaut

{% endcolumn %} {% endcolumns %}

OS llama-server : Activer la réflexion Désactiver la réflexion

Linux, MacOS, WSL :

OS llama-server :	Activer la réflexion	Désactiver la réflexion
Linux, MacOS, WSL :	`--chat-template-kwargs '{"enable_thinking":true}'`	`--chat-template-kwargs '{"enable_thinking":false}'`
Windows / Powershell :	`--chat-template-kwargs "{\"enable_thinking\":true}"`	`--chat-template-kwargs "{\"enable_thinking\":false}"`

--chat-template-kwargs '{"enable_thinking":true}'

--chat-template-kwargs '{"enable_thinking":false}'

Windows / Powershell :

--chat-template-kwargs "{\"enable_thinking\":true}"

--chat-template-kwargs "{\"enable_thinking\":false}"

À titre d’exemple, pour Qwen3.6-35B-A3B, afin de désactiver la réflexion (activée par défaut) : ```bash ./llama.cpp/llama-server \\ --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-BF16.gguf \\ --alias "unsloth/Qwen3.6-35B-A3B-GGUF" \\ --temp 0.6 \\ --top-p 0.95 \\ --ctx-size 16384 \\ --top-k 20 \\ --min-p 0.00 \\ --port 8001 \\ --chat-template-kwargs '{"enable_thinking":false}' ``` Puis en Python : ```python from openai import OpenAI import json openai_client = OpenAI( base_url = "http://127.0.0.1:8001/v1", api_key = "sk-no-key-required", ) completion = openai_client.chat.completions.create( model = "unsloth/Qwen3.6-35B-A3B-GGUF", messages = [{"role": "user", "content": "What is 2+2?"},], ) print(completion.choices[0].message.content) print(completion.choices[0].message.reasoning_content) ``` ### 👨‍💻 OpenAI Codex & Claude Code Pour exécuter le modèle via des charges de travail locales d’agent de codage, vous pouvez [suivre notre guide](https://unsloth.ai/docs/fr/bases/claude-code). Il suffit de changer le nom du modèle pour votre variante 'Qwen3.6' et de vous assurer de suivre les bons paramètres et instructions d’utilisation de Qwen3.6. Utilisez le `llama-server` que nous venons juste de configurer à l’instant. {% columns %} {% column %} {% content-ref url="../bases/claude-code" %} [claude-code](https://unsloth.ai/docs/fr/bases/claude-code) {% endcontent-ref %} {% endcolumn %} {% column %} {% content-ref url="../bases/codex" %} [codex](https://unsloth.ai/docs/fr/bases/codex) {% endcontent-ref %} {% endcolumn %} {% endcolumns %} Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

Nous pouvons alors demander par exemple `Crée un jeu Python pour les échecs` :

## 📊 Benchmarks ### Benchmarks Unsloth GGUF Les benchmarks de divergence KL pour les GGUF Qwen3.6-35-A3B seront mis à jour ici. Voici nos précédents pour Qwen3.5 :

35B-A3B - benchmarks KLD (plus bas est meilleur)

Comme Qwen3.6 a la même architecture que Qwen3.5, vous pouvez vous référer à nos benchmarks précédents Qwen3.5 : {% content-ref url="qwen3.5/gguf-benchmarks" %} [gguf-benchmarks](https://unsloth.ai/docs/fr/modeles/qwen3.5/gguf-benchmarks) {% endcontent-ref %} ### Benchmarks officiels de Qwen #### Qwen3.6-35B-A3B

--- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/modeles/qwen3.6.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.