> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/modeles/gemma-4.md).

# Gemma 4 - Comment l'exécuter localement

Gemma 4 est la nouvelle famille de modèles ouverts de Google DeepMind, comprenant **12B**, **E2B**, **E4B**, **26B-A4B**et **31B.** Les modèles multimodaux à raisonnement hybride prennent en charge plus de 140 langues, jusqu'à **256K de contexte**et existent en variantes denses et MoE. Gemma 4 est sous licence Apache-2.0 et peut s'exécuter sur votre appareil local.

**Gemma-4-12B** est nouveau et offre une prise en charge unifiée du texte, de l'image et de l'audio. Il fonctionne sur **8 Go** de RAM (4 bits) ou 14 Go (8 bits). **Gemma-4-E2B** et **E4B** prennent aussi en charge l'image et l'audio. Fonctionnent sur **5 Go de RAM** (4 bits) ou 15 Go (16 bits complets).

<a href="/pages/fa9788be3ba8450d14c81331c0249f2201968a40#run-gemma-4-tutorials" class="button primary">Exécuter Gemma 4</a><a href="/pages/11ad65c8cb780dbffa6556d9554801824345ccfa" class="button secondary">Affiner Gemma 4</a><a href="/pages/37cce83fd1e6ea602111351259e229bf84c8f6e5" class="button primary">Gemma 4 QAT</a><a href="/pages/8a5380e0865d3d7e5687a50dfdc376839d816086#gemma-4-mtp" class="button secondary">Gemma 4 MTP</a>

{% hint style="success" %}
**NOUVEAU :** [**Gemma 4 MTP est là**](broken://pages/8a5380e0865d3d7e5687a50dfdc376839d816086) **! MTP permet une inférence 1,4 à 2,2x plus rapide sans perte de précision. Exécutez MTP directement dans** [**Unsloth Studio**](broken://pages/8a5380e0865d3d7e5687a50dfdc376839d816086#unsloth-studio-mtp-guide)**.**
{% endhint %}

{% columns %}
{% column %}
**Gemma-4-26B-A4B** fonctionne sur **18 Go** (4 bits) ou 28 Go (8 bits). **Gemma-4-31B** nécessite **20 Go de RAM** (4 bits) ou 34 Go (8 bits).

Vous pouvez désormais exécuter tous les GGUF, [MLX](#mlx-dynamic-quants) et affiner Gemma 4 dans [Unsloth Studio](#unsloth-studio-guide) (voir à droite).

[**QAT** variantes](broken://pages/37cce83fd1e6ea602111351259e229bf84c8f6e5) de Gemma 4 réduisent les besoins en mémoire d'environ 3x tout en préservant la qualité du modèle.
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/93caac3ea9f36e951db039e5d7f695e27763705e" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**9 juin :** [Gemma 4 MTP](broken://pages/8a5380e0865d3d7e5687a50dfdc376839d816086) est là.

**5 juin :** [Gemma 4 QAT](broken://pages/37cce83fd1e6ea602111351259e229bf84c8f6e5) est sorti.

**2 juin :** Gemma 4 12B Unified est sorti.

**20 avril :** Nous avons effectué [les benchmarks GGUF de Gemma 4](#unsloth-gguf-benchmarks) pour vous aider à choisir la meilleure quantification.
{% endhint %}

### Guide d'utilisation

Gemma 4 excelle dans le raisonnement, le codage, l'utilisation d'outils, les workflows à long contexte et agentiques, ainsi que les tâches multimodales. Les variantes plus petites E2B et E4B sont conçues pour les téléphones et les ordinateurs portables, tandis que les modèles plus grands ciblent les systèmes à CPU / VRAM moyens à élevés, comme les PC équipés de GPU NVIDIA RTX.

| Variante Gemma 4 | Détails                                                                     | Meilleure adéquation                                                                     |
| ---------------- | --------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------- |
| **E2B**          | <p>Dense + PLE (contexte 128K)<br>Prise en charge : texte, image, audio</p> | Pour l'inférence sur téléphone / en périphérie, l'ASR, la traduction vocale              |
| **E4B**          | <p>Dense + PLE (contexte 128K)<br>Prise en charge : texte, image, audio</p> | Petit modèle pour les ordinateurs portables et une utilisation multimodale locale rapide |
| **12B Unified**  | <p>Dense (contexte 256K)<br>Prise en charge : texte, image, audio</p>       | Modèle moyen pour les ordinateurs portables et une utilisation multimodale locale        |
| **26B-A4B**      | <p>MoE (contexte 256K)<br>Prise en charge : texte, image</p>                | Meilleur compromis vitesse / qualité pour une utilisation sur ordinateur                 |
| **31B**          | <p>Dense (contexte 256K)<br>Prise en charge : texte, image</p>              | Meilleures performances, avec une inférence plus lente                                   |

**Voir Gemma 4 :** [**Benchmarks de performance**](#official-gemma-benchmarks) **et** [**Benchmarks GGUF**](#unsloth-gguf-benchmarks)**.**

**Dois-je choisir 26B-A4B ou 31B ?**

* **26B-A4B** - équilibre vitesse et précision. Sa conception MoE le rend plus rapide que 31B, avec 4B de paramètres actifs. Choisissez-le si la RAM est limitée et que vous acceptez de sacrifier un peu de qualité au profit de la vitesse.
* **31B** - est actuellement le modèle Gemma 4 le plus performant. Choisissez-le pour une qualité maximale si vous avez suffisamment de mémoire et pouvez accepter des vitesses légèrement plus lentes.

### Configuration matérielle requise

**Tableau : Configuration matérielle recommandée pour l'inférence Gemma 4 GGUF** (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée). Vous pouvez utiliser Gemma 4 sur macOS, les GPU NVIDIA RTX, etc.

| Variante Gemma 4 |   4 bits |   8 bits | BF16 / FP16 |
| ---------------- | -------: | -------: | ----------: |
| **E2B**          |     4 Go |   5–8 Go |       10 Go |
| **E4B**          | 5,5–6 Go |  9–12 Go |       16 Go |
| **12B Unified**  |   7–8 Go | 13–14 Go |       25 Go |
| **26B A4B**      | 16–18 Go | 28–30 Go |       52 Go |
| **31B**          | 17–20 Go | 34–38 Go |       62 Go |

{% hint style="info" %}
En règle générale, votre mémoire totale disponible devrait au moins dépasser la taille du modèle quantifié que vous téléchargez. Si ce n'est pas le cas, llama.cpp peut quand même fonctionner en utilisant un déchargement partiel vers la RAM / le disque, mais la génération sera plus lente. Vous aurez aussi besoin de plus de calcul, selon la fenêtre de contexte utilisée.
{% endhint %}

### Paramètres recommandés

Il est recommandé d'utiliser les paramètres par défaut de Gemma 4 de Google :

* `temperature = 1.0`
* `top_p = 0.95`
* `top_k = 64`

{% hint style="info" %}
Le contexte maximal de Gemma 4 est **128K** pour **E2B** / **E4B** et `262,144` pour **12B** / **26B A4B** / **31B**.
{% endhint %}

#### Mode réflexion

Par rapport aux anciens modèles de chat Gemma, Gemma 4 utilise les rôles standard **`système`**, **`assistant`**&#x65;t **`utilisateur`** et ajoute un contrôle explicite de la réflexion.

**Comment activer la réflexion :**

Ajoutez le jeton **`<|think|>`** au **début du prompt système**.

{% columns %}
{% column %}
**Réflexion activée**

```
<|think|>
Vous êtes un assistant de programmation prudent. Expliquez clairement votre réponse.
```

{% endcolumn %}

{% column %}
**Réflexion désactivée**

```
Vous êtes un assistant de programmation prudent. Expliquez clairement votre réponse.
```

{% endcolumn %}
{% endcolumns %}

**Comportement de sortie :**

{% columns %}
{% column %}
Lorsque la réflexion est activée, le modèle affiche son canal de raisonnement interne avant la réponse finale.

```
<|channel>thought
[raisonnement interne]
<channel|>
[réponse finale]
```

{% endcolumn %}

{% column %}
Lorsque la réflexion est désactivée, les plus grands modèles peuvent tout de même émettre un **bloc de pensée vide** avant la réponse finale.

```
<|channel>thought
<channel|>
[réponse finale]
```

{% endcolumn %}
{% endcolumns %}

**Par exemple, avec "**&#x51;uelle est la capitale de la France ?":

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nWhat is the capital of France?<turn|>\n<|turn>model\n
```

{% endcode %}

**puis il produit :**

{% code overflow="wrap" %}

```
<|channel>thought\nL'utilisateur demande quelle est la capitale de la France.\nLa capitale de la France est Paris.<channel|>La capitale de la France est Paris.<turn|>
```

{% endcode %}

**Règle de chat à plusieurs tours :**

Pour les conversations à plusieurs tours, **ne conservez que la réponse finale visible dans l'historique du chat**. Ne **pas** réinjectez les blocs de réflexion précédents dans le tour suivant.

{% code overflow="wrap" %}

```
<bos><|turn>user\nWhat is 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWhat is 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWhat is 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWhat is 1+1?<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**Comment désactiver la réflexion :**

Remarque `llama-cli` pourrait ne pas fonctionner de manière fiable, utilisez donc `llama-server` pour désactiver le raisonnement :

{% hint style="warning" %}
Pour [désactiver la réflexion / le raisonnement](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'`

Si vous êtes sur **Windows** PowerShell, utilisez : `--chat-template-kwargs "{\"enable_thinking\":false}"`

Utilisez indifféremment 'true' et 'false'.
{% endhint %}

## Tutoriels pour exécuter Gemma 4

Comme les GGUF Gemma 4 existent en plusieurs tailles, le point de départ recommandé pour les petits modèles est le 8 bits et pour les plus grands modèles est [**Dynamique**](/docs/fr/notions-de-base/unsloth-dynamic-2.0-ggufs.md) **4 bits**. [GGUF Gemma 4](https://huggingface.co/collections/unsloth/gemma-4) ou [MLX](#mlx-dynamic-quants):

| [E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [12b](https://huggingface.co/unsloth/gemma-4-12b-it-GGUF) | [26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| --------------------------------------------------------- | --------------------------------------------------------- | --------------------------------------------------------- | ----------------------------------------------------------------- | --------------------------------------------------------- |

<a href="/pages/fa9788be3ba8450d14c81331c0249f2201968a40#unsloth-studio-guide" class="button primary">🦥 Guide d'Unsloth Studio</a><a href="/pages/fa9788be3ba8450d14c81331c0249f2201968a40#llama.cpp-guide" class="button primary">🦙 Guide de Llama.cpp</a>

{% columns %}
{% column %}
**Vous pouvez exécuter et entraîner Gemma 4 gratuitement avec une interface dans notre** [**Unsloth Studio**](/docs/fr/nouveau/studio.md)✨ **notebook :**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Guide d'Unsloth Studio

Gemma 4 peut désormais être exécuté et affiné dans [Unsloth Studio](/docs/fr/nouveau/studio.md), notre nouvelle interface web open source pour l'IA locale. Unsloth Studio vous permet d'exécuter des modèles localement sur **macOS, Windows**, Linux et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor
* [**Auto-réparation** appel d'outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash)
* [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.)
* Inférence rapide CPU + GPU via llama.cpp
* [Entraînez des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus rapide avec 70 % de VRAM en moins
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/d1de7323ac3c7ff8b6fa77fe0acb51771c26a735" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

Exécutez dans votre terminal :

**macOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Lancez Unsloth

**macOS, Linux, WSL et Windows :**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

Puis ouvrez `http://127.0.0.1:8888` dans votre navigateur.
{% endstep %}

{% step %}

#### Recherchez et téléchargez Gemma 4

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter.

Ensuite, allez dans le [Studio Chat](/docs/fr/nouveau/studio/chat.md) onglet et recherchez Gemma 4 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités. Unsloth prend en charge le dernier modèle unifié Gemma-4-12B.

<div data-with-frame="true"><figure><img src="/files/35bb1470f9864473df888d81e3b1e7106361290d" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter Gemma 4

Les paramètres d'inférence devraient être définis automatiquement lors de l'utilisation d'Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez aussi modifier la longueur de contexte, le modèle de chat et d'autres paramètres. Vous pouvez exécuter des fichiers GGUF et MLX.

Pour plus d'informations, vous pouvez consulter notre [guide d'inférence d'Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/d1de7323ac3c7ff8b6fa77fe0acb51771c26a735" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Guide de Llama.cpp

Pour ce guide, nous utiliserons Dynamic 4 bits pour les 12B, 26B-A4B et 31B, et 8 bits pour E2B et E4B. Voir : [collection GGUF Gemma 4](https://huggingface.co/collections/unsloth/gemma-4)

Pour ces tutoriels, nous utiliserons [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) pour une inférence locale rapide, surtout si vous avez un CPU.

{% stepper %}
{% step %}
Obtenez la dernière version de `llama.cpp` **sur** [**GitHub ici**](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez `-DGGML_CUDA=ON` par `-DGGML_CUDA=OFF` si vous n'avez pas de GPU ou si vous voulez simplement une inférence sur CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Si vous souhaitez utiliser `llama.cpp` directement pour charger des modèles, vous pouvez suivre les commandes ci-dessous, selon le modèle. `UD-Q4_K_XL` est le type de quantification. Vous pouvez aussi télécharger via Hugging Face (étape 3). C'est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` à enregistrer à un emplacement spécifique. Il n'est pas nécessaire de définir la longueur de contexte, car llama.cpp utilise automatiquement la quantité exacte requise.

{% hint style="warning" %}
Pour [désactiver la réflexion / le raisonnement](#how-to-enable-or-disable-reasoning-and-thinking), utilisez : `--chat-template-kwargs '{"enable_thinking":false}'`

**Windows** PowerShell : `--chat-template-kwargs "{\"enable_thinking\":false}"`

Utilisez '`true`' et '`false`' indifféremment.
{% endhint %}

**12B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-12B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**26B-A4B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**31B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E4B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E2B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endstep %}

{% step %}
Vous pouvez aussi télécharger le modèle manuellement via le code ci-dessous (après avoir installé `pip install huggingface_hub`). Vous pouvez choisir `UD-Q4_K_XL` ou d'autres versions quantifiées comme `Q8_0` . Si les téléchargements se bloquent, voir : [Hugging Face Hub, débogage XET](/docs/fr/notions-de-base/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \\
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \\
    --include "*mmproj-BF16*" \\
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2 bits
```

{% endstep %}

{% step %}
Puis exécutez le modèle en mode conversation (avec vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

#### Déploiement de llama-server

Pour déployer Gemma-4 sur llama-server, utilisez :

```bash
./llama.cpp/llama-server \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64 \\
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% endstep %}
{% endstepper %}

### Quantifications dynamiques MLX

Nous avons aussi téléchargé des quantifications dynamiques 4 bits et 8 bits à titre de premier essai pour les appareils MacOS ! Les quantifications MLX prennent en charge **la vision.**

{% hint style="success" %}
Toutes les quantifications MLX fonctionnent désormais avec[ Unsloth Studio](#unsloth-studio-guide)!
{% endhint %}

| Gemma 4 | MLX 4 bits                                                            | MLX 8 bits                                                         |
| ------- | --------------------------------------------------------------------- | ------------------------------------------------------------------ |
| 31B     | [lien](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [lien](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [lien](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [lien](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [lien](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

Pour les essayer, utilisez :

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
```

{% endcode %}

### Guide Ollama

Ollama prend désormais bien en charge les GGUF Unsloth. Utilisez `curl -fsSL https://ollama.com/install.sh | sh` pour installer Ollama sous Linux ou `irm https://ollama.com/install.ps1 | iex` pour Windows.\
\
Pour utiliser un seul fichier quant (de moins de 50 Go), utilisez :

{% code overflow="wrap" %}

```bash
ollama run hf.co/unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL
```

{% endcode %}

Pour plusieurs shards, comme des shards BF16 plus volumineux, faites :

{% code overflow="wrap" %}

```bash
pip install -U huggingface_hub

# Téléchargez mmproj et BF16 en 2 appels
hf download unsloth/gemma-4-26B-A4B-it-GGUF --include "BF16/*" \
    --local-dir gemma4
hf download unsloth/gemma-4-26B-A4B-it-GGUF --include "mmproj-BF16.gguf" \
    --local-dir gemma4

mv gemma4/mmproj-BF16.gguf gemma4/BF16/
echo "FROM ./gemma4/BF16" > Modelfile

ollama create unsloth-gemma4 -f Modelfile
ollama run unsloth-gemma4
```

{% endcode %}

<div data-with-frame="true"><figure><img src="/files/c7b63086ead6ae3d941061f351e115d575f876bd" alt="" width="563"><figcaption></figcaption></figure></div>

{% hint style="info" %}
Si vous voyez `Erreur : 500 Internal Server Error : impossible de charger le modèle` mettez à jour Ollama via `curl -fsSL https://ollama.com/install.sh | sh` ou utilisez la version PowerShell.
{% endhint %}

## Bonnes pratiques pour Gemma 4

### Exemples de prompts

#### Prompt de raisonnement simple

```
Système :
<|think|>
Vous êtes un assistant de raisonnement précis.

Utilisateur :
Un train part à 8:15 AM et arrive à 11:47 AM. Quelle a été la durée du trajet ?
```

#### Invite OCR / document

Pour l'OCR, utilisez un **budget élevé de tokens visuels** comme **560** ou **1120**.

```
[image first]
Extrayez tout le texte de ce reçu. Retournez les lignes d'articles, le total, le commerçant et la date au format JSON.
```

#### Invite de comparaison multimodale

```
[image 1]
[image 2]
Comparez ces deux captures d'écran et dites-moi laquelle risque le plus de dérouter un nouvel utilisateur.
```

#### Invite ASR audio

```
Transcrivez le segment vocal suivant en {LANGUAGE} en texte {LANGUAGE}.

Suivez ces instructions spécifiques pour formater la réponse :
* N'affichez que la transcription, sans retour à la ligne.
* Lors de la transcription des nombres, écrivez les chiffres, c.-à-d. écrivez 1.7 et non un point sept, et écrivez 3 au lieu de trois.
```

#### Invite de traduction audio

```
Transcrivez le segment vocal suivant en {SOURCE_LANGUAGE}, puis traduisez-le en {TARGET_LANGUAGE}. Lors du formatage de la réponse, affichez d'abord la transcription en {SOURCE_LANGUAGE}, puis un retour à la ligne, puis la chaîne '{TARGET_LANGUAGE}: ', puis la traduction en {TARGET_LANGUAGE}.
```

### Paramètres multimodaux

Pour de meilleurs résultats avec les invites multimodales, placez le contenu multimodal en premier :

* Placez **l'image et/ou l'audio avant le texte**.
* Pour la vidéo, fournissez d'abord une séquence d'images, puis l'instruction.

#### Limites audio et vidéo

* **Audio** est disponible sur **12B**, **E2B** et **E4B** uniquement.
* L'audio prend en charge un maximum de **30 secondes**.
* La vidéo prend en charge un maximum de **60 secondes** en supposant **1 image par seconde** de traitement.

#### Modèles d'invites audio

**Invite ASR**

```
Transcrivez le segment vocal suivant en {LANGUAGE} en texte {LANGUAGE}.

Suivez ces instructions spécifiques pour formater la réponse :
* N'affichez que la transcription, sans retour à la ligne.
* Lors de la transcription des nombres, écrivez les chiffres, c.-à-d. écrivez 1.7 et non un point sept, et écrivez 3 au lieu de trois.
```

**Invite de traduction vocale**

```
Transcrivez le segment vocal suivant en {SOURCE_LANGUAGE}, puis traduisez-le en {TARGET_LANGUAGE}.
Lors du formatage de la réponse, affichez d'abord la transcription en {SOURCE_LANGUAGE}, puis un retour à la ligne, puis la chaîne '{TARGET_LANGUAGE}: ', puis la traduction en {TARGET_LANGUAGE}.
```

## 📊 Benchmarks

### Benchmarks GGUF d'Unsloth

Nous avons mené des benchmarks de divergence KL moyenne pour les GGUF Gemma 4 chez différents fournisseurs afin de vous aider à choisir la meilleure quantification (plus bas est meilleur).

* La divergence KL place tous les GGUF Unsloth sur la frontière de Pareto SOTA
* La KLD montre dans quelle mesure un modèle quantifié correspond à la distribution de sortie BF16 d'origine, indiquant la précision conservée.

<div data-with-frame="true"><figure><img src="/files/e81ee98f746b03b836788438360431e6fa3c153a" alt=""><figcaption><p>26B A4B - benchmarks KLD (plus bas est meilleur)</p></figcaption></figure></div>

### Benchmarks officiels de Gemma

**Benchmarks texte/code**

| Benchmark                | Gemma 4 31B | Gemma 4 26B A4B | Gemma 4 12B Unified | Gemma 4 E4B | Gemma 4 E2B | Gemma 3 27B (sans réflexion) |
| ------------------------ | ----------- | --------------- | ------------------- | ----------- | ----------- | ---------------------------- |
| MMLU Pro                 | 85.2%       | 82.6%           | 77.2%               | 69.4%       | 60.0%       | 67.6%                        |
| AIME 2026 sans outils    | 89.2%       | 88.3%           | 77.5%               | 42.5%       | 37.5%       | 20.8%                        |
| LiveCodeBench v6         | 80.0%       | 77.1%           | 72.0%               | 52.0%       | 44.0%       | 29.1%                        |
| ELO Codeforces           | 2150        | 1718            | 1659                | 940         | 633         | 110                          |
| GPQA Diamond             | 84.3%       | 82.3%           | 78.8%               | 58.6%       | 43.4%       | 42.4%                        |
| Tau2                     | 76.9%       | 68.2%           | 69.0%               | 42.2%       | 24.5%       | 16.2%                        |
| HLE sans outils          | 19.5%       | 8.7%            | 5.2%                | -           | -           | -                            |
| HLE avec recherche       | 26.5%       | 17.2%           | -                   | -           | -           | -                            |
| BigBench Extra difficile | 74.4%       | 64.8%           | 53.0%               | 33.1%       | 21.9%       | 19.3%                        |
| MMMLU                    | 88.4%       | 86.3%           | 83.4%               | 76.6%       | 67.4%       | 70.7%                        |

**Benchmarks vision**

| MMMU Pro                                 | 76.9% | 73.8% | 69.1% | 52.6% | 44.2% | 49.7% |
| ---------------------------------------- | ----- | ----- | ----- | ----- | ----- | ----- |
| OmniDocBench 1.5 (plus bas est meilleur) | 0.131 | 0.149 | 0.164 | 0.181 | 0.290 | 0.365 |
| MATH-Vision                              | 85.6% | 82.4% | 79.7% | 59.5% | 52.4% | 46.0% |
| MedXPertQA MM                            | 61.3% | 58.1% | 48.7% | 28.7% | 23.5% | -     |

**Benchmarks audio**

| CoVoST                          | -     | -     | 38.5<sup>\*</sup>  | 35.54 | 33.47 | -     |
| ------------------------------- | ----- | ----- | ------------------ | ----- | ----- | ----- |
| FLEURS (plus bas est meilleur)  | -     | -     | 0.069<sup>\*</sup> | 0.08  | 0.09  | -     |
| **Contexte long**               |       |       |                    |       |       |       |
| MRCR v2 8 needle 128k (moyenne) | 66.4% | 44.1% | 43.4%              | 25.4% | 19.1% | 13.5% |

<div data-with-frame="true"><figure><img src="/files/d29600b641b9749a0169b0ab9bd39da2b5d8a56a" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/gemma-4.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
