# Gemma 4 - Comment l'exécuter localement

Gemma 4 est la nouvelle famille de modèles ouverts de Google DeepMind, incluant **E2B**, **E4B**, **26B-A4B**, et **31B.** Les modèles multimodaux à raisonnement hybride prennent en charge plus de 140 langues, jusqu’à **256K de contexte**, et existent en variantes denses et MoE. Gemma 4 est sous licence Apache-2.0 et peut s’exécuter sur votre appareil local.

{% columns %}
{% column %} <a href="#run-gemma-4-tutorials" class="button primary">Exécuter Gemma 4</a><a href="gemma-4/train" class="button secondary">Affiner Gemma 4</a>

**Gemma-4-E2B** et **E4B** prennent en charge l’image et l’audio. Exécutable sur **5 Go de RAM** (4 bits) ou 15 Go (16 bits complet). Consultez nos [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4).

**Gemma-4-26B-A4B** s’exécute sur **18 Go** (4 bits) ou 28 Go (8 bits). **Gemma-4-31B** nécessite **20 Go de RAM** (4 bits) ou 34 Go (8 bits).
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FstfdTMsoBMmsbQsgQ1Ma%2Flandscape%20clip%20gemma.gif?alt=media&#x26;token=eec5f2f7-b97a-4c1c-ad01-5a041c3e4013" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**Mise à jour du 11 avr. :** Gemma 4 est désormais mise à jour avec le template de chat actualisé de Google + des correctifs de llama.cpp.\
**NE PAS** utiliser le runtime CUDA 13.2 pour aucun GGUF, car cela entraînera de mauvaises sorties.

Vous pouvez désormais exécuter des GGUF et affiner Gemma 4 dans [Unsloth Studio](#unsloth-studio-guide)✨
{% endhint %}

### Guide d’utilisation

Gemma 4 excelle dans le raisonnement, le codage, l’utilisation d’outils, les flux de travail à long contexte et agentiques, ainsi que les tâches multimodales. Les variantes plus petites E2B et E4B sont conçues pour les téléphones et les ordinateurs portables, tandis que les modèles plus grands ciblent les systèmes CPU/VRAM de capacité moyenne à élevée, comme les PC équipés de GPU NVIDIA RTX.

| Variante Gemma 4 | Détails                                                                        | Meilleur choix                                                                         |
| ---------------- | ------------------------------------------------------------------------------ | -------------------------------------------------------------------------------------- |
| **E2B**          | <p>Dense + PLE (128K de contexte)<br>Prend en charge : texte, image, audio</p> | Pour l’inférence sur téléphone / en périphérie, ASR, traduction vocale                 |
| **E4B**          | <p>Dense + PLE (128K de contexte)<br>Prend en charge : texte, image, audio</p> | Petit modèle pour les ordinateurs portables et l’utilisation multimodale locale rapide |
| **26B-A4B**      | <p>MoE (256K de contexte)<br>Prend en charge : texte, image</p>                | Meilleur compromis vitesse / qualité pour l’utilisation sur ordinateur                 |
| **31B**          | <p>Dense (256K de contexte)<br>Prend en charge : texte, image</p>              | Meilleures performances avec une inférence plus lente                                  |

**Dois-je choisir 26B-A4B ou 31B ?**

* **26B-A4B** - équilibre vitesse et précision. Sa conception MoE le rend plus rapide que 31B, avec 4B de paramètres actifs. Choisissez-le si la RAM est limitée et que vous êtes prêt à sacrifier un peu de qualité pour la vitesse.
* **31B** - actuellement le modèle Gemma 4 le plus performant. Choisissez-le pour une qualité maximale si vous avez suffisamment de mémoire et pouvez accepter des vitesses légèrement plus lentes.

#### Benchmarks de Gemma 4

| Gemma 4     | MMLU Pro | AIME 2026 (sans outils) | LiveCodeBench v6 | MMMU Pro |
| ----------- | -------: | ----------------------: | ---------------: | -------: |
| **31B**     |    85.2% |                   89.2% |            80.0% |    76.9% |
| **26B A4B** |    82.6% |                   88.3% |            77.1% |    73.8% |
| **E4B**     |    69.4% |                   42.5% |            52.0% |    52.6% |
| **E2B**     |    60.0% |                   37.5% |            44.0% |    44.2% |

### Exigences matérielles

**Tableau : exigences matérielles recommandées pour l’inférence GGUF de Gemma 4** (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée). Vous pouvez utiliser Gemma 4 sur MacOS, GPU NVIDIA RTX, etc.

| variante Gemma 4 |   4 bits |   8 bits | BF16 / FP16 |
| ---------------- | -------: | -------: | ----------: |
| **E2B**          |     4 Go |   5–8 Go |       10 Go |
| **E4B**          | 5,5–6 Go |  9–12 Go |       16 Go |
| **26B A4B**      | 16–18 Go | 28–30 Go |       52 Go |
| **31B**          | 17–20 Go | 34–38 Go |       62 Go |

{% hint style="info" %}
En règle générale, votre mémoire totale disponible devrait au minimum dépasser la taille du modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner en utilisant un déchargement partiel vers la RAM/le disque, mais la génération sera plus lente. Vous aurez également besoin de davantage de calcul, selon la fenêtre de contexte utilisée.
{% endhint %}

### Paramètres recommandés

Il est recommandé d’utiliser les paramètres par défaut de Gemma 4 de Google :

* `température = 1.0`
* `top_p = 0.95`
* `top_k = 64`

Paramètres pratiques recommandés pour l’inférence locale :

* Commencez avec **un contexte de 32K** pour la réactivité, puis augmentez
* Conservez **la pénalité de répétition/de présence** désactivée ou à 1.0, sauf si vous observez une boucle.
* Le jeton de fin de phrase est `<turn|>`

{% hint style="info" %}
Le contexte maximal de Gemma 4 est **128K** pour **E2B / E4B** et **256K** pour **26B A4B / 31B**.
{% endhint %}

#### Mode de raisonnement

Par rapport aux anciens templates de chat Gemma, Gemma 4 utilise les rôles standard **`system`**, **`assistant`**, et **`user`** et ajoute un contrôle explicite du raisonnement.

**Comment activer le raisonnement :**

Ajoutez le jeton **`<|think|>`** au **début du prompt système**.

{% columns %}
{% column %}
**Raisonnement activé**

```
<|think|>
Vous êtes un assistant de codage attentif. Expliquez clairement votre réponse.
```

{% endcolumn %}

{% column %}
**Raisonnement désactivé**

```
Vous êtes un assistant de codage attentif. Expliquez clairement votre réponse.
```

{% endcolumn %}
{% endcolumns %}

**Comportement de sortie :**

{% columns %}
{% column %}
Lorsque le raisonnement est activé, le modèle affiche d’abord son canal de raisonnement interne avant la réponse finale.

```
<|channel>thought
[raisonnement interne]
<channel|>
[réponse finale]
```

{% endcolumn %}

{% column %}
Lorsque le raisonnement est désactivé, les plus grands modèles peuvent quand même émettre un **bloc de pensée vide** avant la réponse finale.

```
<|channel>thought
<channel|>
[réponse finale]
```

{% endcolumn %}
{% endcolumns %}

**Par exemple, en utilisant «**&#x51;uelle est la capitale de la France ? » :

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nQuelle est la capitale de la France ?<turn|>\n<|turn>model\n
```

{% endcode %}

**puis il produit :**

{% code overflow="wrap" %}

```
<|channel>thought\nL’utilisateur demande la capitale de la France.\nLa capitale de la France est Paris.<channel|>La capitale de la France est Paris.<turn|>
```

{% endcode %}

**Règle du chat à plusieurs tours :**

Pour les conversations à plusieurs tours, **ne conservez dans l’historique du chat que la dernière réponse visible**. Ne **pas** réinjecter les blocs de pensée précédents dans le tour suivant.

{% code overflow="wrap" %}

```
<bos><|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nQuel est 1+1 ?<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**Comment désactiver le raisonnement :**

Remarque `llama-cli` peut ne pas fonctionner de manière fiable, donc utilisez `llama-server` pour désactiver le raisonnement :

{% hint style="warning" %}
Pour [désactiver le raisonnement / la réflexion](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'`

Si vous êtes sur **Windows** Powershell, utilisez : `--chat-template-kwargs "{\"enable_thinking\":false}"`

Utilisez 'true' et 'false' de manière interchangeable.
{% endhint %}

## Tutoriels pour exécuter Gemma 4

Comme les GGUF de Gemma 4 existent en plusieurs tailles, le point de départ recommandé pour les petits modèles est 8 bits et pour les modèles plus grands est **4 bits dynamique**. [Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) ou [MLX](#mlx-dynamic-quants):

| [gemma-4-E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [gemma-4-E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [gemma-4-26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [gemma-4-31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| ----------------------------------------------------------------- | ----------------------------------------------------------------- | ------------------------------------------------------------------------- | ----------------------------------------------------------------- |

<a href="#unsloth-studio-guide" class="button primary">🦥 Guide Unsloth Studio</a><a href="#llama.cpp-guide" class="button primary">🦙 Guide Llama.cpp</a>

{% columns %}
{% column %}
**Vous pouvez exécuter et entraîner Gemma 4 gratuitement avec une interface utilisateur dans notre** [**Unsloth Studio**](https://unsloth.ai/docs/fr/nouveau/studio)✨ **notebook :**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Guide Unsloth Studio

Gemma 4 peut désormais être exécuté et affiné dans [Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio), notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur **MacOS, Windows**, Linux et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) et des modèles safetensor
* [**Auto-réparation** appel d’outils](https://unsloth.ai/docs/fr/nouveau/studio#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](https://unsloth.ai/docs/fr/nouveau/studio#run-models-locally) (Python, Bash)
* [Inférence automatique](https://unsloth.ai/docs/fr/nouveau/studio#model-arena) réglage des paramètres (temp, top-p, etc.)
* Inférence CPU + GPU rapide via llama.cpp
* [Entraîner des LLM](https://unsloth.ai/docs/fr/nouveau/studio#no-code-training) 2x plus rapide avec 70 % de VRAM en moins
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

Exécutez dans votre terminal :

**MacOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Lancer Unsloth

**MacOS, Linux, WSL et Windows :**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Puis ouvrez `http://localhost:8888` dans votre navigateur.**
{% endstep %}

{% step %}

#### Rechercher et télécharger Gemma 4

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte, puis vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et les paramètres de base. Vous pouvez le passer à tout moment.

Puis allez dans l’onglet [Studio Chat](https://unsloth.ai/docs/fr/nouveau/studio/chat) et recherchez Gemma 4 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FpYoNILI8NFMl8QaQlc7V%2FScreenshot%202026-04-02%20at%2010.37.32%E2%80%AFPM.png?alt=media&#x26;token=18d5918e-4f71-4e0e-b8c9-464097389835" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter Gemma 4

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur de contexte, le template de chat et d’autres paramètres.

Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](https://unsloth.ai/docs/fr/nouveau/studio/chat).

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Guide Llama.cpp

Pour ce guide, nous utiliserons Dynamic 4-bit pour les 26B-A4B et 31B, et 8-bit pour E2B et E4B. Voir : [collection Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4)

Pour ces tutoriels, nous utiliserons [llama.cpp](https://llama.cpphttps/github.com/ggml-org/llama.cpp) pour une inférence locale rapide, en particulier si vous avez un CPU.

{% stepper %}
{% step %}
Obtenez la dernière version `llama.cpp` **sur** [**GitHub ici**](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez `-DGGML_CUDA=ON` par `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis poursuivez normalement - la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Si vous souhaitez utiliser `llama.cpp` directement pour charger des modèles, vous pouvez suivre les commandes ci-dessous, selon chaque modèle. `UD-Q4_K_XL` est le type de quantification. Vous pouvez également télécharger via Hugging Face (étape 3). C’est similaire à `ollama run` . Utilisez `export LLAMA_CACHE="folder"` pour forcer `llama.cpp` à enregistrer dans un emplacement spécifique. Il n’est pas nécessaire de définir la longueur de contexte, car llama.cpp utilise automatiquement la quantité exacte requise.

**26B-A4B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**31B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E4B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

**E2B :**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endstep %}

{% step %}
Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `UD-Q4_K_XL` ou d’autres versions quantifiées comme `Q8_0` . Si les téléchargements se bloquent, voir : [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/fr/bases/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \\
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \\
    --include "*mmproj-BF16*" \\
    --include "*UD-Q4_K_XL*" # Utilisez "*UD-Q2_K_XL*" pour Dynamic 2 bits
```

{% endstep %}

{% step %}
Puis exécutez le modèle en mode conversation (avec vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

### Déploiement de llama-server

Pour déployer Gemma-4 sur llama-server, utilisez :

```bash
./llama.cpp/llama-server \\
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \\
    --top-p 0.95 \\
    --top-k 64 \\
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \\
    --port 8001 \\
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% hint style="warning" %}
Pour [désactiver le raisonnement / la réflexion](#how-to-enable-or-disable-reasoning-and-thinking), utilisez `--chat-template-kwargs '{"enable_thinking":false}'`

Si vous êtes sur **Windows** Powershell, utilisez : `--chat-template-kwargs "{\"enable_thinking\":false}"`

Utilisez 'true' et 'false' de manière interchangeable.
{% endhint %}
{% endstep %}
{% endstepper %}

### Quantifications dynamiques MLX

Nous avons également mis en ligne des quantifications dynamiques 4 bits et 8 bits comme premier essai pour les appareils MacOS !

{% hint style="success" %}
Maintenant avec **la prise en charge de la** vision !
{% endhint %}

| Gemma 4 | MLX 4 bits                                                            | MLX 8 bits                                                         |
| ------- | --------------------------------------------------------------------- | ------------------------------------------------------------------ |
| 31B     | [lien](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [lien](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [lien](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [lien](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [lien](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [lien](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

Pour les essayer, utilisez :

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
```

{% endcode %}

## Bonnes pratiques pour Gemma 4

### Exemples de prompts

#### Prompt de raisonnement simple

```
Système :
<|think|>
Vous êtes un assistant de raisonnement précis.

Utilisateur :
Un train part à 8h15 et arrive à 11h47. Combien de temps a duré le trajet ?
```

#### Prompt OCR / document

Pour l’OCR, utilisez un **budget élevé de jetons visuels** comme **560** ou **1120**.

```
[image d’abord]
Extrayez tout le texte de ce reçu. Retournez les lignes d’articles, le total, le commerçant et la date au format JSON.
```

#### Prompt de comparaison multimodale

```
[image 1]
[image 2]
Comparez ces deux captures d’écran et dites-moi laquelle est la plus susceptible de dérouter un nouvel utilisateur.
```

#### Prompt ASR audio

```
[audio d’abord]
Transcrivez le segment vocal suivant en anglais en texte anglais.

Suivez ces instructions spécifiques pour le format de la réponse :
* N’affichez que la transcription, sans retour à la ligne.
* Lors de la transcription des nombres, écrivez les chiffres, c.-à-d. écrivez 1.7 et non one point seven, et écrivez 3 au lieu de three.
```

#### Prompt de traduction audio

```
[audio d’abord]
Transcrivez le segment vocal suivant en espagnol, puis traduisez-le en anglais.
Pour formater la réponse, affichez d’abord la transcription en espagnol, puis un retour à la ligne, puis affichez la chaîne 'English: ', puis la traduction en anglais.
```

### Paramètres multimodaux

Pour de meilleurs résultats avec les prompts multimodaux, placez le contenu multimodal en premier :

* Placez **l’image et/ou l’audio avant le texte**.
* Pour la vidéo, fournissez d’abord une séquence d’images, puis l’instruction.

#### Résolution d’image variable

Gemma 4 prend en charge plusieurs budgets de jetons visuels :

* `70`
* `140`
* `280`
* `560`
* `1120`

Utilisez-les comme ceci :

* **70 / 140**: classification, légendage, compréhension rapide de la vidéo
* **280 / 560**: chat multimodal général, graphiques, écrans, raisonnement sur l’interface utilisateur
* **1120**: OCR, analyse de documents, écriture manuscrite, petit texte

#### Limites audio et vidéo

* **L’audio** est disponible sur **E2B** et **E4B** uniquement.
* L’audio prend en charge un maximum de **30 secondes**.
* La vidéo prend en charge un maximum de **60 secondes** en supposant **1 image par seconde** de traitement.

#### Modèles de prompts audio

**Prompt ASR**

```
Transcrivez le segment vocal suivant en {LANGUAGE} en texte {LANGUAGE}.

Suivez ces instructions spécifiques pour le format de la réponse :
* N’affichez que la transcription, sans retour à la ligne.
* Lors de la transcription des nombres, écrivez les chiffres, c.-à-d. écrivez 1.7 et non one point seven, et écrivez 3 au lieu de three.
```

**Prompt de traduction vocale**

```
Transcrivez le segment vocal suivant en {SOURCE_LANGUAGE}, puis traduisez-le en {TARGET_LANGUAGE}.
Pour formater la réponse, affichez d’abord la transcription en {SOURCE_LANGUAGE}, puis un retour à la ligne, puis affichez la chaîne '{TARGET_LANGUAGE}: ', puis la traduction en {TARGET_LANGUAGE}.
```

#### Ressources et liens

* [Article de blog Hugging Face sur Gemma 4](https://huggingface.co/blog/gemma4)
* [Article de blog NVIDIA sur Gemma 4](https://blogs.nvidia.com/blog/rtx-ai-garage-open-models-google-gemma-4)
* [Blog officiel de Google sur Gemma 4](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)

<div data-with-frame="true"><figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FfKaFMy7LHQYNKpfsf7Zy%2Fgemma%204%20banner.png?alt=media&#x26;token=8bd8d0e0-ccb6-4ded-b99b-2c8a18370ae5" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
