# Gemma 4 - Comment l'exécuter localement

Gemma 4 est la nouvelle famille de modèles ouverts de Google DeepMind, comprenant **E2B**, **E4B**, **26B-A4B**, et **31B.** Les modèles multimodaux à raisonnement hybride prennent en charge plus de 140 langues, jusqu’à **contexte de 256K**, et existent en variantes denses et MoE. Gemma 4 est sous licence Apache-2.0 et peut s’exécuter sur votre appareil local.

{% columns %}
{% column %} <a href="/pages/fa9788be3ba8450d14c81331c0249f2201968a40#run-gemma-4-tutorials" class="button primary">Exécuter Gemma 4</a><a href="/pages/11ad65c8cb780dbffa6556d9554801824345ccfa" class="button secondary">Ajuster finement Gemma 4</a>

**Gemma-4-E2B** et **E4B** prennent en charge les images et l’audio. Fonctionne sur **5 Go de RAM** (4 bits) ou 15 Go (16 bits complets). Consultez nos [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4).

**Gemma-4-26B-A4B** fonctionne sur **18 Go** (4 bits) ou 28 Go (8 bits). **Gemma-4-31B** nécessite **20 Go de RAM** (4 bits) ou 34 Go (8 bits).
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/93caac3ea9f36e951db039e5d7f695e27763705e" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**20 avr. :** Nous avons réalisé [des benchmarks GGUF de Gemma 4](#unsloth-gguf-benchmarks) pour vous aider à choisir la meilleure quantification.

**Mise à jour du 11 avr. :** Gemma 4 est désormais mise à jour avec le modèle de chat actualisé de Google + les corrections de llama.cpp.\
**NE PAS** utiliser le runtime CUDA 13.2 pour n’importe quel GGUF, car cela produira de mauvais résultats.

Vous pouvez maintenant exécuter des GGUF et ajuster finement Gemma 4 dans [Unsloth Studio](#unsloth-studio-guide)✨
{% endhint %}

### Guide d’utilisation

Gemma 4 excelle dans le raisonnement, le codage, l’utilisation d’outils, les contextes longs, les workflows agentiques et les tâches multimodales. Les variantes plus petites E2B et E4B sont conçues pour les téléphones et les ordinateurs portables, tandis que les modèles plus grands ciblent les systèmes CPU/VRAM de gamme moyenne à élevée, comme les PC équipés de GPU NVIDIA RTX.

| Variante Gemma 4 | Détails                                                                     | Le mieux adapté                                                                  |
| ---------------- | --------------------------------------------------------------------------- | -------------------------------------------------------------------------------- |
| **E2B**          | <p>Dense + PLE (contexte 128K)<br>Prend en charge : texte, image, audio</p> | Pour l’inférence sur téléphone / edge, ASR, traduction vocale                    |
| **E4B**          | <p>Dense + PLE (contexte 128K)<br>Prend en charge : texte, image, audio</p> | Petit modèle pour ordinateurs portables et utilisation multimodale locale rapide |
| **26B-A4B**      | <p>MoE (contexte 256K)<br>Prend en charge : texte, image</p>                | Meilleur compromis vitesse / qualité pour l’utilisation sur ordinateur           |
| **31B**          | <p>Dense (contexte 256K)<br>Prend en charge : texte, image</p>              | Meilleures performances, mais inférence plus lente                               |

**Voir Gemma 4 :** [**Benchmarks de performance**](#official-gemma-benchmarks) **et** [**Benchmarks GGUF**](#unsloth-gguf-benchmarks)**.**

**Dois-je choisir 26B-A4B ou 31B ?**

* **26B-A4B** - équilibre vitesse et précision. Sa conception MoE le rend plus rapide que le 31B, avec 4B paramètres actifs. Choisissez-le si la RAM est limitée et si vous acceptez d’échanger un peu de qualité contre de la vitesse.
* **31B** - actuellement le modèle Gemma 4 le plus performant. Choisissez-le pour une qualité maximale si vous disposez de suffisamment de mémoire et pouvez accepter des vitesses légèrement plus lentes.

### Configuration matérielle requise

**Tableau : configuration matérielle recommandée pour l’inférence GGUF de Gemma 4** (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée). Vous pouvez utiliser Gemma 4 sur MacOS, les GPU NVIDIA RTX, etc.

| Variante Gemma 4 |   4 bits |   8 bits | BF16 / FP16 |
| ---------------- | -------: | -------: | ----------: |
| **E2B**          |     4 Go |   5–8 Go |       10 Go |
| **E4B**          | 5,5–6 Go |  9–12 Go |       16 Go |
| **26B A4B**      | 16–18 Go | 28–30 Go |       52 Go |
| **31B**          | 17–20 Go | 34–38 Go |       62 Go |

{% hint style="info" %}
En règle générale, la mémoire totale disponible devrait au moins dépasser la taille du modèle quantifié que vous téléchargez. Sinon, llama.cpp peut toujours fonctionner en utilisant une décharge partielle vers la RAM / le disque, mais la génération sera plus lente. Vous aurez également besoin de plus de calcul, selon la fenêtre de contexte que vous utilisez.
{% endhint %}

### Paramètres recommandés

Il est recommandé d’utiliser les paramètres Gemma 4 par défaut de Google :

* `température = 1,0`
* `top_p = 0,95`
* `top_k = 64`

Valeurs par défaut pratiques recommandées pour l’inférence locale :

* Commencez avec **un contexte de 32K** pour la réactivité, puis augmentez
* Gardez **la pénalité de répétition / présence** désactivée ou à 1.0, sauf si vous voyez des boucles.
* Le jeton de fin de phrase est `<turn|>`

{% hint style="info" %}
Le contexte maximal de Gemma 4 est **128K** pour **E2B / E4B** et **256K** pour **26B A4B / 31B**.
{% endhint %}

#### Mode de réflexion

Par rapport aux anciens modèles de chat Gemma, Gemma 4 utilise les rôles standards **`système`**, **`assistant`**, et **`utilisateur`** et ajoute un contrôle explicite de la réflexion.

**Comment activer la réflexion :**

Ajoutez le jeton **`<|think|>`** au **début du prompt système**.

{% columns %}
{% column %}
**Réflexion activée**

```
<|think|>
Vous êtes un assistant de codage prudent. Expliquez clairement votre réponse.
```

{% endcolumn %}

{% column %}
**Réflexion désactivée**

```
Vous êtes un assistant de codage prudent. Expliquez clairement votre réponse.
```

{% endcolumn %}
{% endcolumns %}

**Comportement de sortie :**

{% columns %}
{% column %}
Lorsque la réflexion est activée, le modèle produit son canal de raisonnement interne avant la réponse finale.

```
<|channel>thought
[raisonnement interne]
<channel|>
[réponse finale]
```

{% endcolumn %}

{% column %}
Lorsque la réflexion est désactivée, les plus grands modèles peuvent tout de même émettre un **bloc de réflexion vide** avant la réponse finale.

```
<|channel>thought
<channel|>
[réponse finale]
```

{% endcolumn %}
{% endcolumns %}

**Par exemple, en utilisant «**&#x51;uelle est la capitale de la France ? » :

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nQuelle est la capitale de la France ?<turn|>\n<|turn>model\n
```

{% endcode %}

**puis il produit :**

{% code overflow="wrap" %}

```
<|channel>thought\nL’utilisateur demande quelle est la capitale de la France.\nLa capitale de la France est Paris.<channel|>La capitale de la France est Paris.<turn|>
```

{% endcode %}

**Règle de conversation à plusieurs tours :**

Pour les conversations à plusieurs tours, **ne gardez dans l’historique du chat que la dernière réponse visible**. Ne **pas** réinjecter les blocs de réflexion précédents dans le tour suivant.

{% code overflow="wrap" %}

```
<bos><|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**Comment désactiver la réflexion :**

Remarque `llama-cli` pourrait ne pas fonctionner de manière fiable, alors utilisez `llama-server` pour désactiver le raisonnement :

{% hint style="warning" %}
Pour [désactiver la réflexion / le raisonnement](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'`

Si vous êtes sur **Windows** Powershell, utilisez : `--chat-template-kwargs "{\"enable_thinking\":false}"`

Utilisez « true » et « false » de manière interchangeable.
{% endhint %}

## Exécuter les tutoriels Gemma 4

Comme les GGUF de Gemma 4 existent en plusieurs tailles, le point de départ recommandé pour les petits modèles est 8 bits et pour les grands modèles est **4 bits dynamique**. [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) ou [MLX](#mlx-dynamic-quants):

| [gemma-4-E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [gemma-4-E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [gemma-4-26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [gemma-4-31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| ----------------------------------------------------------------- | ----------------------------------------------------------------- | ------------------------------------------------------------------------- | ----------------------------------------------------------------- |

<a href="/pages/fa9788be3ba8450d14c81331c0249f2201968a40#unsloth-studio-guide" class="button primary">🦥 Guide Unsloth Studio</a><a href="/pages/fa9788be3ba8450d14c81331c0249f2201968a40#llama.cpp-guide" class="button primary">🦙 Guide Llama.cpp</a>

{% columns %}
{% column %}
**Vous pouvez exécuter et entraîner Gemma 4 gratuitement avec une interface dans notre** [**Unsloth Studio**](/docs/fr/nouveau/studio.md)✨ **notebook :**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Guide Unsloth Studio

Gemma 4 peut maintenant être exécuté et ajusté finement dans [Unsloth Studio](/docs/fr/nouveau/studio.md), notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur **MacOS, Windows**, Linux et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor
* [**Auto-réparation** appel d'outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash)
* [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.)
* Inférence rapide CPU + GPU via llama.cpp
* [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus rapide avec 70 % de VRAM en moins
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/d1de7323ac3c7ff8b6fa77fe0acb51771c26a735" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

Exécutez dans votre terminal :

**MacOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Lancer Unsloth

**MacOS, Linux, WSL et Windows :**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

Puis ouvrez `http://127.0.0.1:8888` dans votre navigateur.
{% endstep %}

{% step %}

#### Rechercher et télécharger Gemma 4

Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et les paramètres de base. Vous pouvez le passer à tout moment.

Ensuite, allez dans l’onglet [Studio Chat](/docs/fr/nouveau/studio/chat.md) et recherchez Gemma 4 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

<div data-with-frame="true"><figure><img src="/files/35bb1470f9864473df888d81e3b1e7106361290d" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter Gemma 4

Les paramètres d'inférence devraient être définis automatiquement lors de l'utilisation d'Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d'autres réglages.

Pour plus d'informations, vous pouvez consulter notre [guide d'inférence Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/d1de7323ac3c7ff8b6fa77fe0acb51771c26a735" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Guide Llama.cpp

Pour ce guide, nous utiliserons le 4 bits dynamique pour les 26B-A4B et 31B, et le 8 bits pour E2B et E4B. Voir : [Collection GGUF de Gemma 4](https://huggingface.co/collections/unsloth/gemma-4)

Pour ces tutoriels, nous utiliserons [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) pour une inférence locale rapide, surtout si vous avez un CPU.

{% stepper %}
{% step %}
Obtenez la dernière version de `llama.cpp` **sur** [**GitHub ici**](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez `-DGGML_CUDA=ON` par `-DGGML_CUDA=OFF` si vous n'avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Si vous souhaitez utiliser `llama.cpp` directement pour charger les modèles, vous pouvez suivre les commandes ci-dessous, selon chaque modèle. `UD-Q4_K_XL` est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (étape 3). C’est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` à enregistrer dans un emplacement spécifique. Il n’est pas nécessaire de définir la longueur du contexte, car llama.cpp utilise automatiquement la quantité exacte requise.

**26B-A4B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \\
    --top-p 0.95 \
    --top-k 64
```

**31B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \\
    --top-p 0.95 \
    --top-k 64
```

**E4B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
    --temp 1.0 \\
    --top-p 0.95 \
    --top-k 64
```

**E2B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \
    --temp 1.0 \\
    --top-p 0.95 \
    --top-k 64
```

{% endstep %}

{% step %}
Téléchargez le modèle via (après installation de `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-Q4_K_XL` ou d’autres versions quantifiées comme `Q8_0` . Si les téléchargements se bloquent, voir : [Hugging Face Hub, débogage XET](/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
    --include "*mmproj-BF16*" \\
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour la quantification dynamique 2 bits
```

{% endstep %}

{% step %}
Puis exécutez le modèle en mode conversation (avec vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \\
    --top-p 0.95 \
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

### Déploiement de llama-server

Pour déployer Gemma-4 sur llama-server, utilisez :

```bash
./llama.cpp/llama-server \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \\
    --top-p 0.95 \
    --top-k 64 \
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% hint style="warning" %}
Pour [désactiver la réflexion / le raisonnement](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'`

Si vous êtes sur **Windows** Powershell, utilisez : `--chat-template-kwargs "{\"enable_thinking\":false}"`

Utilisez « true » et « false » de manière interchangeable.
{% endhint %}
{% endstep %}
{% endstepper %}

### Quants dynamiques MLX

Nous avons également mis en ligne des quants dynamiques 4 bits et 8 bits à titre de premier essai pour les appareils MacOS !

{% hint style="success" %}
Maintenant avec **le support** de la vision !
{% endhint %}

| Gemma 4 | MLX 4 bits                                                            | MLX 8 bits                                                         |
| ------- | --------------------------------------------------------------------- | ------------------------------------------------------------------ |
| 31B     | [lien](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [lien](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [lien](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [lien](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [lien](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

Pour les essayer, utilisez :

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
```

{% endcode %}

## Bonnes pratiques Gemma 4

### Exemples de prompts

#### Prompt de raisonnement simple

```
Système :
<|think|>
Vous êtes un assistant de raisonnement précis.

Utilisateur :
Un train part à 8 h 15 et arrive à 11 h 47. Quelle a été la durée du trajet ?
```

#### Prompt OCR / document

Pour l’OCR, utilisez un **budget élevé de jetons visuels** comme **560** ou **1120**.

```
[image d’abord]
Extrayez tout le texte de ce reçu. Retournez les lignes d’articles, le total, le commerçant et la date sous forme JSON.
```

#### Prompt de comparaison multimodale

```
[image 1]
[image 2]
Comparez ces deux captures d’écran et dites-moi laquelle est la plus susceptible de dérouter un nouvel utilisateur.
```

#### Prompt ASR audio

```
[audio d’abord]
Transcrivez le segment vocal suivant en anglais sous forme de texte anglais.

Suivez ces instructions spécifiques pour le formatage de la réponse :
* N’affichez que la transcription, sans saut de ligne.
* Lors de la transcription des nombres, écrivez les chiffres, c’est-à-dire écrivez 1.7 et non un point sept, et écrivez 3 au lieu de trois.
```

#### Prompt de traduction audio

```
[audio d’abord]
Transcrivez le segment vocal suivant en espagnol, puis traduisez-le en anglais.
Lors du formatage de la réponse, affichez d’abord la transcription en espagnol, puis une nouvelle ligne, puis affichez la chaîne 'English: ', puis la traduction en anglais.
```

### Paramètres multimodaux

Pour de meilleurs résultats avec les prompts multimodaux, placez d’abord le contenu multimodal :

* Placez **l’image et/ou l’audio avant le texte**.
* Pour la vidéo, transmettez d’abord une séquence d’images, puis l’instruction.

#### Résolution d’image variable

Gemma 4 prend en charge plusieurs budgets de jetons visuels :

* `70`
* `140`
* `280`
* `560`
* `1120`

Utilisez-les comme ceci :

* **70 / 140**: classification, légendage, compréhension rapide de la vidéo
* **280 / 560**: chat multimodal général, graphiques, écrans, raisonnement sur l’interface utilisateur
* **1120**: OCR, analyse de documents, écriture manuscrite, petit texte

#### Limites audio et vidéo

* **L’audio** est disponible sur **E2B** et **E4B** seulement.
* L’audio prend en charge un maximum de **30 secondes**.
* La vidéo prend en charge un maximum de **60 secondes** en supposant **1 image par seconde** de traitement.

#### Modèles de prompts audio

**Prompt ASR**

```
Transcrivez le segment vocal suivant en texte {LANGUAGE} dans {LANGUAGE}.

Suivez ces instructions spécifiques pour le formatage de la réponse :
* N’affichez que la transcription, sans saut de ligne.
* Lors de la transcription des nombres, écrivez les chiffres, c’est-à-dire écrivez 1.7 et non un point sept, et écrivez 3 au lieu de trois.
```

**Prompt de traduction vocale**

```
Transcrivez le segment vocal suivant en {SOURCE_LANGUAGE}, puis traduisez-le en {TARGET_LANGUAGE}.
Lors du formatage de la réponse, affichez d’abord la transcription en {SOURCE_LANGUAGE}, puis une nouvelle ligne, puis affichez la chaîne '{TARGET_LANGUAGE}: ', puis la traduction en {TARGET_LANGUAGE}.
```

## 📊 Benchmarks

### Benchmarks GGUF d’Unsloth

Nous avons réalisé des benchmarks de divergence KL moyenne pour les GGUF de Gemma 4 chez différents fournisseurs afin de vous aider à choisir la meilleure quantification (plus bas = mieux).

* La divergence KL place tous les GGUF d’Unsloth sur la frontière de Pareto SOTA
* La KLD montre à quel point un modèle quantifié correspond à la distribution de sortie BF16 d’origine, indiquant la précision conservée.

<div data-with-frame="true"><figure><img src="/files/e81ee98f746b03b836788438360431e6fa3c153a" alt=""><figcaption><p>Benchmarks KLD de 26B A4B (plus bas = mieux)</p></figcaption></figure></div>

### Benchmarks officiels de Gemma

| Gemma 4     | MMLU Pro | AIME 2026 (sans outils) | LiveCodeBench v6 | MMMU Pro |
| ----------- | -------: | ----------------------: | ---------------: | -------: |
| **31B**     |    85.2% |                   89.2% |            80.0% |    76.9% |
| **26B A4B** |    82.6% |                   88.3% |            77.1% |    73.8% |
| **E4B**     |    69.4% |                   42.5% |            52.0% |    52.6% |
| **E2B**     |    60.0% |                   37.5% |            44.0% |    44.2% |

<div data-with-frame="true"><figure><img src="/files/d29600b641b9749a0169b0ab9bd39da2b5d8a56a" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
