> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/modeles/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-2507.md).

# Qwen3-2507 : guide d'exécution locale

Qwen a publié des mises à jour 2507 (juillet 2025) pour ses [Qwen3](/docs/fr/modeles/tutorials/qwen3-how-to-run-and-fine-tune.md) modèles 4B, 30B et 235B, introduisant à la fois des variantes « avec réflexion » et « sans réflexion ». Le modèle sans réflexion «**Qwen3-30B-A3B-Instruct-2507**' et '**Qwen3-235B-A22B-Instruct-2507'** dispose d’une fenêtre de contexte de 256K, d’un meilleur suivi des instructions, de capacités multilingues et d’un meilleur alignement.

Les modèles avec réflexion «**Qwen3-30B-A3B-Thinking-2507**' et '**Qwen3-235B-A22B-Thinking-2507**excellent en raisonnement, le 235B obtenant des résultats SOTA en logique, mathématiques, sciences, codage et tâches académiques avancées.

[Unsloth](https://github.com/unslothai/unsloth) prend désormais aussi en charge le fine-tuning et [Apprentissage par renforcement (RL)](/docs/fr/commencer/reinforcement-learning-rl-guide.md) des modèles Qwen3-2507 — 2x plus rapide, avec 70 % de VRAM en moins, et des contextes 8x plus longs

<a href="#run-qwen3-30b-a3b-2507-tutorials" class="button secondary">Exécuter 30B-A3B</a><a href="/pages/08b638079f720f03f4ae61f30ea4084f852da73b#run-qwen3-235b-a22b-2507-tutorials" class="button secondary">Exécuter 235B-A22B</a><a href="#fine-tuning-qwen3-2507-with-unsloth" class="button secondary">Fine-tuner Qwen3-2507</a>

**Unsloth** [**Dynamic 2.0**](/docs/fr/notions-de-base/unsloth-dynamic-2.0-ggufs.md) **GGUFs :**

| Modèle                   | GGUFs à exécuter :                                                                                                                                            |
| ------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| Qwen3-**4B-2507**        | [Instruct](https://huggingface.co/unsloth/Qwen3-4B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-4B-Thinking-2507-GGUF)               |
| Qwen3-**30B-A3B**-2507   | [Instruct](#llama.cpp-run-qwen3-30b-a3b-instruct-2507-tutorial) • [Thinking](https://huggingface.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF)                 |
| Qwen3-**235B-A22B**-2507 | [Instruct](https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF) • [Thinking](https://huggingface.co/unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF) |

## ⚙️ Bonnes pratiques

{% hint style="success" %}
Les paramètres des modèles Thinking et Instruct sont différents.\
Le modèle Thinking utilise temperature = 0.6, tandis que le modèle Instruct utilise temperature = 0.7\
Le modèle Thinking utilise top\_p = 0.95, tandis que le modèle Instruct utilise top\_p = 0.8
{% endhint %}

Pour obtenir des performances optimales, Qwen recommande ces paramètres :

| Paramètres du modèle Instruct :                                                                                                            | Paramètres du modèle Thinking :                                                                                                            |
| ------------------------------------------------------------------------------------------------------------------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------ |
| <mark style="background-color:blue;">`Température = 0.7`</mark>                                                                            | <mark style="background-color:blue;">`Température = 0.6`</mark>                                                                            |
| `Min_P = 0.00` (la valeur par défaut de llama.cpp est 0.1)                                                                                 | `Min_P = 0.00` (la valeur par défaut de llama.cpp est 0.1)                                                                                 |
| `Top_P = 0.80`                                                                                                                             | `Top_P = 0.95`                                                                                                                             |
| `TopK = 20`                                                                                                                                | `TopK = 20`                                                                                                                                |
| `presence_penalty = 0.0 à 2.0` (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l’utiliser) | `presence_penalty = 0.0 à 2.0` (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l’utiliser) |

**Longueur de sortie adéquate**: Utilisez une longueur de sortie de `32,768` tokens pour la plupart des requêtes, ce qui est suffisant pour la plupart des requêtes.

Modèle de chat pour Thinking et Instruct (Thinking a `<think></think>`) est indiqué ci-dessous :

```
<|im_start|>user
Salut !<|im_end|>
<|im_start|>assistant
Combien font 1+1 ?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant
```

## 📖 Tutoriels pour exécuter Qwen3-30B-A3B-2507

Vous trouverez ci-dessous des guides pour les [Thinking](#thinking-qwen3-30b-a3b-thinking-2507) et [Instruct](#instruct-qwen3-30b-a3b-instruct-2507) versions du modèle.

### Instruct : Qwen3-30B-A3B-Instruct-2507

Comme il s’agit d’un modèle sans réflexion, il n’est pas nécessaire de définir `thinking=False` et le modèle ne génère pas de blocs `<think> </think>` .

#### ⚙️ Bonnes pratiques

Pour obtenir des performances optimales, Qwen recommande les paramètres suivants :

* Nous suggérons d’utiliser `temperature=0.7, top_p=0.8, top_k=20, et min_p=0.0` `presence_penalty` entre 0 et 2 si le framework le prend en charge, afin de réduire les répétitions infinies.
* **`temperature = 0.7`**
* `top_k = 20`
* `min_p = 0.00` (la valeur par défaut de llama.cpp est 0.1)
* **`top_p = 0.80`**
* `presence_penalty = 0.0 à 2.0` (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l’utiliser) Essayez 1.0 par exemple.
* Prend en charge jusqu’à `262,144` de contexte nativement, mais vous pouvez le définir à `32,768` tokens pour réduire l’utilisation de la RAM

#### 🦙 Ollama : Tutoriel pour exécuter Qwen3-30B-A3B-Instruct-2507

1. Installer `ollama` si ce n’est pas déjà fait ! Vous ne pouvez exécuter que des modèles allant jusqu’à 32B.

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Exécutez le modèle ! Notez que vous pouvez appeler `ollama serve`dans un autre terminal si cela échoue ! Nous incluons toutes nos corrections et les paramètres suggérés (température, etc.) dans `params` dans notre envoi Hugging Face !

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp : Tutoriel pour exécuter Qwen3-30B-A3B-Instruct-2507

1. Obtenez le dernier `llama.cpp` par défaut. Seule votre machine peut atteindre le serveur. [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Modifiez `-DGGML_CUDA=ON` à `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude - la prise en charge Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Vous pouvez directement télécharger depuis HuggingFace via :

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0
   ```
3. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir UD\_Q4\_K\_XL ou d’autres versions quantifiées.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

### Thinking : Qwen3-30B-A3B-Thinking-2507

Ce modèle ne prend en charge que le mode Thinking et une fenêtre de contexte de 256K nativement. Le modèle de chat par défaut ajoute `<think>` automatiquement, vous pouvez donc ne voir qu’une balise de fermeture `</think>` dans la sortie.

#### ⚙️ Bonnes pratiques

Pour obtenir des performances optimales, Qwen recommande les paramètres suivants :

* Nous suggérons d’utiliser `temperature=0.6, top_p=0.95, top_k=20, et min_p=0.0` `presence_penalty` entre 0 et 2 si le framework le prend en charge, afin de réduire les répétitions infinies.
* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (la valeur par défaut de llama.cpp est 0.1)
* **`top_p = 0.95`**
* `presence_penalty = 0.0 à 2.0` (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l’utiliser) Essayez 1.0 par exemple.
* Prend en charge jusqu’à `262,144` de contexte nativement, mais vous pouvez le définir à `32,768` tokens pour réduire l’utilisation de la RAM

#### 🦙 Ollama : Tutoriel pour exécuter Qwen3-30B-A3B-Instruct-2507

1. Installer `ollama` si ce n’est pas déjà fait ! Vous ne pouvez exécuter que des modèles allant jusqu’à 32B. Pour exécuter les modèles complets 235B-A22B, [voir ici](#run-qwen3-235b-a22b-instruct-2507).

```bash
apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh
```

2. Exécutez le modèle ! Notez que vous pouvez appeler `ollama serve`dans un autre terminal si cela échoue ! Nous incluons toutes nos corrections et les paramètres suggérés (température, etc.) dans `params` dans notre envoi Hugging Face !

```bash
ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
```

#### :sparkles: Llama.cpp : Tutoriel pour exécuter Qwen3-30B-A3B-Instruct-2507

1. Obtenez le dernier `llama.cpp` par défaut. Seule votre machine peut atteindre le serveur. [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Modifiez `-DGGML_CUDA=ON` à `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude - la prise en charge Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Vous pouvez directement télécharger depuis Hugging Face via :

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
       --jinja -ngl 99 --ctx-size 32768 \
       --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0
   ```
3. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir UD\_Q4\_K\_XL ou d’autres versions quantifiées.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

## 📖 Exécuter **Qwen3-235B-A22B-2507** Tutoriels

Vous trouverez ci-dessous des guides pour les [Thinking](#run-qwen3-235b-a22b-thinking-via-llama.cpp) et [Instruct](#run-qwen3-235b-a22b-instruct-via-llama.cpp) versions du modèle.

### Thinking : Qwen3-**235B-A22B**-Thinking-2507

Ce modèle ne prend en charge que le mode Thinking et une fenêtre de contexte de 256K nativement. Le modèle de chat par défaut ajoute `<think>` automatiquement, vous pouvez donc ne voir qu’une balise de fermeture `</think>` dans la sortie.

#### :gear: Bonnes pratiques

Pour obtenir des performances optimales, Qwen recommande ces paramètres pour le modèle Thinking :

* **`temperature = 0.6`**
* `top_k = 20`
* `min_p = 0.00` (la valeur par défaut de llama.cpp est 0.1)
* `top_p = 0.95`
* `presence_penalty = 0.0 à 2.0` (la valeur par défaut de llama.cpp le désactive, mais pour réduire les répétitions, vous pouvez l’utiliser) Essayez 1.0 par exemple.
* **Longueur de sortie adéquate**: Utilisez une longueur de sortie de `32,768` tokens pour la plupart des requêtes, ce qui est suffisant pour la plupart des requêtes.

#### :sparkles:Exécuter Qwen3-235B-A22B-Thinking via llama.cpp :

Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une multitude d’options.

{% hint style="success" %}
Si vous souhaitez une **version complète non quantifiée**, utilisez nos `Q8_K_XL, Q8_0` ou `BF16` versions !
{% endhint %}

1. Obtenez le dernier `llama.cpp` par défaut. Seule votre machine peut atteindre le serveur. [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Modifiez `-DGGML_CUDA=ON` à `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude - la prise en charge Metal est activée par défaut.

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. Vous pouvez directement utiliser llama.cpp pour télécharger le modèle, mais je recommande généralement d’utiliser `huggingface_hub` Pour utiliser directement llama.cpp, faites :

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
       --ctx-size 16384 \
       --n-gpu-layers 99 \\
       -ot ".ffn_.*_exps.=CPU" \
       --temp 0.6 \
       --min-p 0.0 \
       --top-p 0.95 \
       --top-k 20 \
       --presence-penalty 1.0
   ```
3. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir UD-Q2\_K\_XL, ou d’autres versions quantifiées..

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois déclencher une limite de débit, donc mettez à 0 pour désactiver
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
       allow_patterns = ["*UD-Q2_K_XL*"],
   )
   ```
4. Exécutez le modèle et essayez n’importe quelle instruction.
5. Modifiez `--threads -1` pour le nombre de threads CPU, `--ctx-size` 262114 pour la longueur du contexte, `--n-gpu-layers 99` pour l’offloading GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n’avez qu’une inférence sur CPU.

{% hint style="success" %}
Utilisez `-ot ".ffn_.*_exps.=CPU"` pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant ainsi la vitesse de génération. Vous pouvez personnaliser l’expression regex pour faire tenir plus de couches si vous disposez de plus de capacité GPU.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \\
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20
    --presence-penalty 1.0
```

{% endcode %}

### Instruct : Qwen3-**235B-A22B**-Instruct-2507

Comme il s’agit d’un modèle sans réflexion, il n’est pas nécessaire de définir `thinking=False` et le modèle ne génère pas de blocs `<think> </think>` .

#### ⚙️ Bonnes pratiques

Pour obtenir des performances optimales, nous recommandons les paramètres suivants :

**1. Paramètres d’échantillonnage**: Nous suggérons d’utiliser `temperature=0.7, top_p=0.8, top_k=20, et min_p=0.` `presence_penalty` entre 0 et 2 si le framework le prend en charge, afin de réduire les répétitions infinies.

2\. **Longueur de sortie adéquate**: Nous recommandons d’utiliser une longueur de sortie de `16,384` tokens pour la plupart des requêtes, ce qui est suffisant pour les modèles Instruct.

3\. **Standardiser le format de sortie :** Nous recommandons d’utiliser des prompts pour standardiser les sorties du modèle lors des benchmarks.

* **Problèmes de mathématiques**: Inclure `Veuillez raisonner étape par étape, et mettre votre réponse finale entre \boxed{}.` dans le prompt.
* **Questions à choix multiples**: Ajoutez la structure JSON suivante au prompt pour standardiser les réponses : « Veuillez indiquer votre choix dans le champ \`answer\` avec uniquement la lettre du choix, par exemple, \`"answer": "C".\`

#### :sparkles:Exécuter Qwen3-235B-A22B-Instruct via llama.cpp :

Pour Qwen3-235B-A22B, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée et une multitude d’options.

{% hint style="info" %}
Si vous souhaitez une **version complète non quantifiée**, utilisez nos `Q8_K_XL, Q8_0` ou `BF16` versions !
{% endhint %}

1. Obtenez la dernière version de llama.cpp sur [GitHub](https://github.com/ggml-org/llama.cpp) ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` à `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d’habitude - la prise en charge Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2\. Vous pouvez directement utiliser llama.cpp pour télécharger le modèle, mais je recommande généralement d’utiliser `huggingface_hub` Pour utiliser directement llama.cpp, faites :\\

```bash
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --ctx-size 16384 \
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20 \
    --repeat-penalty 1.0
```

3\. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir UD-Q2\_K\_XL, ou d’autres versions quantifiées..

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois déclencher une limite de débit, donc mettez à 0 pour désactiver
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)
```

4\. Exécutez le modèle et essayez n’importe quelle instruction. 5. Modifiez `--threads -1` pour le nombre de threads CPU, `--ctx-size` 262114 pour la longueur du contexte, `--n-gpu-layers 99` pour l’offloading GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le également si vous n’avez qu’une inférence sur CPU.

{% hint style="success" %}
Utilisez `-ot ".ffn_.*_exps.=CPU"` pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant ainsi la vitesse de génération. Vous pouvez personnaliser l’expression regex pour faire tenir plus de couches si vous disposez de plus de capacité GPU.
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \\
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20
```

{% endcode %}

### 🛠️ Amélioration de la vitesse de génération <a href="#improving-generation-speed" id="improving-generation-speed"></a>

Si vous disposez de plus de VRAM, vous pouvez essayer de décharger davantage de couches MoE, ou de décharger des couches entières elles-mêmes.

Normalement, `-ot ".ffn_.*_exps.=CPU"` décharge toutes les couches MoE sur le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant ainsi la vitesse de génération. Vous pouvez personnaliser l’expression regex pour faire tenir plus de couches si vous disposez de plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez `-ot ".ffn_(up|down)_exps.=CPU"` Cela décharge les couches MoE de projection up et down.

Essayez `-ot ".ffn_(up)_exps.=CPU"` si vous avez encore plus de mémoire GPU. Cela ne décharge que les couches MoE de projection up.

Vous pouvez aussi personnaliser la regex, par exemple `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` signifie décharger les couches MoE gate, up et down, mais uniquement à partir de la 6e couche.

Le [la dernière version de llama.cpp](https://github.com/ggml-org/llama.cpp/pull/14363) introduit également un mode à haut débit. Utilisez `llama-parallel`. En savoir plus à ce sujet [ici](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Vous pouvez aussi **quantifier le cache KV à 4 bits** par exemple pour réduire les mouvements de VRAM / RAM, ce qui peut aussi accélérer le processus de génération. La [section suivante](#how-to-fit-long-context-256k-to-1m) parle de la quantification du cache KV.

### 📐Comment faire tenir un long contexte <a href="#how-to-fit-long-context-256k-to-1m" id="how-to-fit-long-context-256k-to-1m"></a>

Pour faire tenir un contexte plus long, vous pouvez utiliser **la quantification du cache KV** pour quantifier les caches K et V en bits plus faibles. Cela peut aussi augmenter la vitesse de génération grâce à la réduction des mouvements de données RAM / VRAM. Les options autorisées pour la quantification K (la valeur par défaut est `f16`) comprennent celles ci-dessous.

`--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1`

Vous devriez utiliser les variantes `_1` pour une précision légèrement améliorée, bien que ce soit un peu plus lent. Par exemple `q4_1, q5_1` Essayez donc `--cache-type-k q4_1`

Vous pouvez aussi quantifier le cache V, mais vous devrez **compiler llama.cpp avec la prise en charge de Flash Attention** via `-DGGML_CUDA_FA_ALL_QUANTS=ON`, et utilisez `--flash-attn` pour l’activer. Après avoir installé Flash Attention, vous pouvez alors utiliser `--cache-type-v q4_1`

## 🦥 Fine-tuning de Qwen3-2507 avec Unsloth

Unsloth rend [Qwen3](/docs/fr/modeles/tutorials/qwen3-how-to-run-and-fine-tune.md#fine-tuning-qwen3-with-unsloth) le fine-tuning de Qwen3-2507 2x plus rapide, utilise 70 % de VRAM en moins et prend en charge des contextes 8x plus longs. Comme Qwen3-2507 n’a été publié qu’en variante 30B, cela signifie qu’il vous faudra environ un GPU A100 de 40 Go pour fine-tuner le modèle avec QLoRA (4 bits).

Pour un notebook, comme le modèle ne peut pas tenir dans les GPU gratuits de 16 Go de Colab, vous devrez utiliser un A100 de 40 Go. Vous pouvez utiliser notre notebook conversationnel, mais remplacez l’ensemble de données par n’importe lequel de votre choix. Cette fois, vous n’avez pas besoin de combiner le raisonnement dans votre ensemble de données car le modèle n’a pas de raisonnement.

* [Notebook de raisonnement + conversationnel Qwen3 (14B)](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)

Si vous avez une ancienne version d’Unsloth et/ou si vous affineez localement, installez la dernière version d’Unsloth :

```bash
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

### Fine-tuning des modèles MOE Qwen3-2507

La prise en charge du fine-tuning inclut les modèles MOE : 30B-A3B et 235B-A22B. Qwen3-30B-A3B fonctionne avec 30 Go de VRAM grâce à Unsloth. Pour le fine-tuning des MoE, ce n’est probablement pas une bonne idée de fine-tuner la couche routeur, donc nous l’avons désactivée par défaut.

**Notebooks Qwen3-2507-4B pour :** [Thinking](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Thinking.ipynb) et [Instruct](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(4B\)-Instruct.ipynb)

Le modèle 30B-A3B tient dans 30 Go de VRAM, mais vous pourriez manquer de RAM ou d’espace disque, car le modèle complet 16 bits doit être téléchargé et converti à la volée en 4 bits pour le fine-tuning QLoRA. Cela est dû à des problèmes lors de l’importation directe des modèles MOE 4 bits BnB. Cela n’affecte que les modèles MOE.

{% hint style="warning" %}
Si vous fine-tunez les modèles MOE, veuillez utiliser `FastModel` et non `FastLanguageModel`
{% endhint %}

```python
from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # Choisissez n’importe quelle valeur pour un long contexte !
    load_in_4bit = True,  # Quantification 4 bits pour réduire la mémoire
    load_in_8bit = False, # [NOUVEAU !] Un peu plus précis, utilise 2x plus de mémoire
    full_finetuning = False, # [NOUVEAU !] Nous avons maintenant l’affinage complet !
    # token = "hf_...", # utilisez-en un si vous utilisez des modèles protégés
)
```

<figure><img src="/files/472a6d6403e68ae6a58a80542d42f88f9bfb013a" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/tutorials/qwen3-how-to-run-and-fine-tune/qwen3-2507.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
