# Qwen3.6 - Comment l'exécuter localement

Qwen3.6 est la nouvelle famille de modèles multimodaux à raisonnement hybride d’Alibaba, incluant Qwen3.6-35B-A3B. Il offre des performances de premier plan pour sa taille, prend en charge un contexte de 256K dans 201 langues et propose des modes de réflexion et sans réflexion. Il excelle dans le codage agentique, la vision et les tâches de chat. [35B-A3B GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF) peut fonctionner sur un Mac avec 22 Go de RAM.

<a href="#qwen3.6-inference-tutorials" class="button primary">Lancer les tutoriels Qwen3.6</a>

Les téléchargements utilisent Unsloth [Dynamic 2.0](https://github.com/unslothai/docs/blob/main/basics/unsloth-dynamic-2.0-ggufs) pour des performances de quantification SOTA - les quantifications sont donc calibrées sur des jeux de données d’utilisation réels et les couches importantes sont remontées en précision. Merci à Qwen d’avoir donné à Unsloth un accès dès le premier jour.

### :gear: Guide d’utilisation

**Tableau : exigences matérielles pour l’inférence** (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée)

<table><thead><tr><th>Qwen3.6</th><th>3 bits</th><th>4 bits</th><th width="128">6 bits</th><th>8 bits</th><th>BF16</th></tr></thead><tbody><tr><td><a href="#qwen3.5-35b-a3b"><strong>35B-A3B</strong></a></td><td>17 Go</td><td>23 Go</td><td>30 Go</td><td>38 Go</td><td>70 Go</td></tr></tbody></table>

{% hint style="success" %}
Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (VRAM + RAM système) dépasse la taille du fichier modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner via un déchargement sur SSD/HDD, mais l’inférence sera plus lente.
{% endhint %}

### Paramètres recommandés

* **Fenêtre de contexte maximale :** `262,144` (peut être étendue à 1M via YaRN)
* `presence_penalty = 0.0 à 2.0` par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner **une légère baisse des performances**
* **Longueur de sortie adéquate**: `32,768` tokens pour la plupart des requêtes

{% hint style="info" %}
Si vous obtenez du charabia, votre longueur de contexte est peut-être réglée trop bas. Ou essayez d’utiliser `--cache-type-k bf16 --cache-type-v bf16` ce qui pourrait aider.
{% endhint %}

Comme Qwen3.6 est à raisonnement hybride, les modes réflexion et sans réflexion ont des paramètres différents :

#### Mode réflexion :

| Tâches générales                       | Tâches de codage précises (p. ex. WebDev) |
| -------------------------------------- | ----------------------------------------- |
| temperature = 1.0                      | temperature = 0.6                         |
| top\_p = 0.95                          | top\_p = 0.95                             |
| top\_k = 20                            | top\_k = 20                               |
| min\_p = 0.0                           | min\_p = 0.0                              |
| presence\_penalty = 1.5                | presence\_penalty = 0.0                   |
| repetition penalty = désactivée ou 1.0 | repetition penalty = désactivée ou 1.0    |

{% columns %}
{% column %}
Mode réflexion pour les tâches générales :

{% code overflow="wrap" %}

```bash
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}

{% column %}
Mode réflexion pour les tâches de codage précises :

{% code overflow="wrap" %}

```bash
temperature=0.6, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=0.0, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

#### Paramètres du mode Instruct (sans réflexion) :

| Tâches générales                       | Tâches de raisonnement                 |
| -------------------------------------- | -------------------------------------- |
| temperature = 0.7                      | temperature = 1.0                      |
| top\_p = 0.8                           | top\_p = 0.95                          |
| top\_k = 20                            | top\_k = 20                            |
| min\_p = 0.0                           | min\_p = 0.0                           |
| presence\_penalty = 1.5                | presence\_penalty = 1.5                |
| repetition penalty = désactivée ou 1.0 | repetition penalty = désactivée ou 1.0 |

{% hint style="warning" %}
Pour [désactiver la réflexion / le raisonnement](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'`
{% endhint %}

{% columns %}
{% column %}
Instruct (sans réflexion) pour les tâches générales :

{% code overflow="wrap" %}

```bash
temperature=0.7, top_p=0.8, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}

{% column %}
Instruct (sans réflexion) pour les tâches de raisonnement :

{% code overflow="wrap" %}

```bash
temperature=1.0, top_p=0.95, top_k=20, min_p=0.0, presence_penalty=1.5, repetition_penalty=1.0
```

{% endcode %}
{% endcolumn %}
{% endcolumns %}

## Tutoriels d’inférence Qwen3.6 :

Nous utiliserons Dynamic 4 bits `UD_Q4_K_XL` variantes GGUF pour les charges de travail d’inférence. Cliquez ci-dessous pour accéder aux instructions du modèle désigné :

<a href="../qwen3.5#unsloth-studio-guide" class="button primary">Lancer dans Unsloth Studio</a><a href="#llama.cpp-guides" class="button secondary">Lancer dans llama.cpp</a>

{% hint style="warning" %}
`presence_penalty = 0.0 à 2.0` par défaut, cette option est désactivée, mais pour réduire les répétitions, vous pouvez l’utiliser ; toutefois, une valeur plus élevée peut entraîner **une légère baisse des performances.**

**Actuellement, aucun GGUF Qwen3.6 ne fonctionne dans Ollama en raison de fichiers mmproj de vision séparés. Utilisez des backends compatibles avec llama.cpp.**
{% endhint %}

## 🦥 Guide d’Unsloth Studio

Qwen3.6 peut être exécuté et affiné dans [Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio), notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur **MacOS, Windows**, Linux et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) et des modèles safetensor
* [**Auto-réparation** appel d’outils](https://unsloth.ai/docs/fr/nouveau/studio#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) (Python, Bash)
* [Inférence automatique](https://unsloth.ai/docs/fr/nouveau/studio#model-arena) réglage des paramètres (temp, top-p, etc.)
* Inférence rapide CPU + GPU via llama.cpp
* [Entraîner des LLM](https://unsloth.ai/docs/fr/nouveau/studio#no-code-training) 2x plus rapide avec 70 % de VRAM en moins
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FFeQ0UUlnjXkDdqhcWglh%2Fskinny%20studio%20chat.png?alt=media&#x26;token=c2ee045f-c243-4024-a8e4-bb4dbe7bae79" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

Exécutez dans votre terminal :

**MacOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% hint style="success" %}
**L’installation sera rapide et prendra environ 1 à 2 min.**
{% endhint %}
{% endstep %}

{% step %}

#### Lancer Unsloth

**MacOS, Linux, WSL et Windows :**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fd1yMMNa65Ccz50Ke0E7r%2FScreenshot%202026-03-17%20at%2012.32.38%E2%80%AFAM.png?alt=media&#x26;token=9369cfe7-35b1-4955-b8cb-42f7ecb43780" alt="" width="375"><figcaption></figcaption></figure></div>

Puis ouvrez `http://localhost:8888` (ou votre URL spécifique) dans votre navigateur.
{% endstep %}

{% step %}

#### Rechercher et télécharger Qwen3.6

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.

Puis allez dans l’onglet [Studio Chat](https://unsloth.ai/docs/fr/nouveau/studio/chat) et recherchez Qwen3.6 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.
{% endstep %}

{% step %}

#### Lancer Qwen3.6

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres.

Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio/chat).

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FXPQGEEr1YoKofrTatAKK%2Ftoolcallingif.gif?alt=media&#x26;token=25d68698-fb13-4c46-99b2-d39fb025df08" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

## 🦙 Guides Llama.cpp

### Qwen3.6-35B-A3B

Pour ce guide, nous utiliserons Dynamic 4 bits, qui fonctionne très bien sur un appareil avec 24 Go de RAM / un Mac pour une inférence rapide. Comme le modèle ne fait qu’environ 72 Go en précision F16 complète, nous n’aurons pas trop à nous soucier des performances. GGUF : [Qwen3.6-35B-A3B-GGUF](https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF)

Pour ces tutoriels, nous utiliserons [llama.cpp](https://llama.cpphttps/github.com/ggml-org/llama.cpp) pour une inférence locale rapide, surtout si vous avez un CPU.

### 🦙 Service llama-server & bibliothèque de complétion d’OpenAI

Pour déployer Qwen3.6 en production, nous utilisons `llama-server` Dans un nouveau terminal, par exemple via tmux, déployez le modèle via :

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-server \\
--model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/Qwen3.6-35B-A3B-GGUF/mmproj-F16.gguf \\
    --alias "unsloth/Qwen3.6-35B-A3B" \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --ctx-size 16384 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --port 8001
```

{% endcode %}

Puis, dans un nouveau terminal, après avoir fait `pip install openai`, faites :

{% code overflow="wrap" %}

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.6-35B-A3B",
    messages = [{"role": "user", "content": "Create a Snake game."},],
)
print(completion.choices[0].message.content)
```

{% endcode %}

### 💡 Comment activer ou désactiver la réflexion

{% columns %}
{% column %}
[**Unsloth Studio**](#unsloth-studio-guide) dispose automatiquement d’un bouton bascule 'Think' pour les modèles de réflexion.

Dans llama.cpp, vous pouvez activer ou désactiver la réflexion en suivant les commandes ci-dessous. Utilisez '`true`' et '`false`' de manière interchangeable.

Voir le code ci-dessous pour activer / désactiver la réflexion dans `llama-server`:

{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fj34CUWyxrf0ZxZj4Dn4Z%2Fcurrent%20weather%20in%20amazon.png?alt=media&#x26;token=c0688e60-8d7d-4273-87af-25332fbd540c" alt=""><figcaption><p>Unsloth Studio a le bouton Think activé par défaut</p></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

<table data-full-width="true"><thead><tr><th>OS llama-server :</th><th>Activer la réflexion</th><th>Désactiver la réflexion</th></tr></thead><tbody><tr><td>Linux, MacOS, WSL :</td><td><pre data-overflow="wrap"><code>--chat-template-kwargs '{"enable_thinking":true}'
</code></pre></td><td><pre data-overflow="wrap"><code>--chat-template-kwargs '{"enable_thinking":false}'
</code></pre></td></tr><tr><td>Windows / Powershell :</td><td><pre data-overflow="wrap"><code>--chat-template-kwargs "{\"enable_thinking\":true}"
</code></pre></td><td><pre data-overflow="wrap"><code><strong>--chat-template-kwargs "{\"enable_thinking\":false}"
</strong></code></pre></td></tr></tbody></table>

À titre d’exemple, pour Qwen3.6-35B-A3B, afin de désactiver la réflexion (activée par défaut) :

```bash
./llama.cpp/llama-server \\
    --model unsloth/Qwen3.6-35B-A3B-GGUF/Qwen3.6-35B-A3B-BF16.gguf \\
    --alias "unsloth/Qwen3.6-35B-A3B-GGUF" \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --ctx-size 16384 \\
    --top-k 20 \\
    --min-p 0.00 \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

Puis en Python :

```python
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.6-35B-A3B-GGUF",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)
print(completion.choices[0].message.reasoning_content)
```

### 👨‍💻 OpenAI Codex & Claude Code <a href="#claude-codex" id="claude-codex"></a>

Pour exécuter le modèle via des charges de travail locales d’agent de codage, vous pouvez [suivre notre guide](https://unsloth.ai/docs/fr/bases/claude-code). Il suffit de changer le nom du modèle pour votre variante 'Qwen3.6' et de vous assurer de suivre les bons paramètres et instructions d’utilisation de Qwen3.6. Utilisez le `llama-server` que nous venons juste de configurer à l’instant.

{% columns %}
{% column %}
{% content-ref url="../bases/claude-code" %}
[claude-code](https://unsloth.ai/docs/fr/bases/claude-code)
{% endcontent-ref %}
{% endcolumn %}

{% column %}
{% content-ref url="../bases/codex" %}
[codex](https://unsloth.ai/docs/fr/bases/codex)
{% endcontent-ref %}
{% endcolumn %}
{% endcolumns %}

Après avoir suivi les instructions pour Claude Code par exemple, vous verrez :

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fup2DMSMPjNR8BM9pgR0v%2Fimage.png?alt=media&#x26;token=152e9ee0-2491-4379-af18-8fca0789b19d" alt="" width="563"><figcaption></figcaption></figure></div>

Nous pouvons alors demander par exemple `Crée un jeu Python pour les échecs` :

<div><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F9TfMAoKSdMpb8OHKNnHH%2Fimage.png?alt=media&#x26;token=771df3aa-91ab-4c1e-8676-1830058001ca" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FWP3lI5mQW2EHB79qqgDz%2Fimage.png?alt=media&#x26;token=55cf3189-e100-419c-a615-024b45948284" alt="" width="563"><figcaption></figcaption></figure> <figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fn8DZddDODQZGCP8giKYY%2Fimage.png?alt=media&#x26;token=996c8cb9-d199-4045-90f0-408690e02667" alt="" width="563"><figcaption></figcaption></figure></div>

## 📊 Benchmarks

### Benchmarks Unsloth GGUF

Les benchmarks de divergence KL pour les GGUF Qwen3.6-35-A3B seront mis à jour ici. Voici nos précédents pour Qwen3.5 :

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FeynyrSMxDkkw0zl0haJH%2FCode_Generated_Image(10).png?alt=media&#x26;token=c62eef1c-fdd7-4838-8f69-bab227b56e23" alt="" width="375"><figcaption><p>35B-A3B - benchmarks KLD (plus bas est meilleur)</p></figcaption></figure></div>

Comme Qwen3.6 a la même architecture que Qwen3.5, vous pouvez vous référer à nos benchmarks précédents Qwen3.5 :

{% content-ref url="qwen3.5/gguf-benchmarks" %}
[gguf-benchmarks](https://unsloth.ai/docs/fr/modeles/qwen3.5/gguf-benchmarks)
{% endcontent-ref %}

### Benchmarks officiels de Qwen

#### Qwen3.6-35B-A3B

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2F25aKI2tJR2PNfGfwnbZi%2Fqwen3.6_35b_a3b_score(2).png?alt=media&#x26;token=f296d01d-311d-413e-8c62-122728e33008" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/qwen3.6.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
