Gemma 4 - Comment exécuter localement

Exécutez les nouveaux modèles Gemma 4 de Google localement, y compris E2B, E4B, 26B A4B et 31B.

Gemma 4 est la nouvelle famille de modèles ouverts de Google DeepMind, incluant E2B, E4B, 26B-A4B, et 31B. Ces modèles multimodaux à raisonnement hybride prennent en charge plus de 140 langues, jusqu’à 256K de contexte, et existent en variantes denses et MoE. E2B et E4B prennent également en charge l’image et l’audio. Publié sous licence Apache-2.0, Gemma 4 peut s’exécuter localement sur votre appareil et être affiné dans Unsloth Studio.

circle-check

Gemma-4-E2B et E4B s’exécute sur 5 Go de RAM (4 bits) ou 15 Go (précision complète 16 bits). Gemma-4-26B-A4B s’exécute sur 18 Go (4 bits) ou 28 Go (8 bits). Gemma-4-31B nécessite 20 Go de RAM (4 bits) ou 34 Go (8 bits). Voir : Gemma 4 GGUF d’Unsloth

Exécuter Gemma 4Affiner Gemma 4

Guide d’utilisation

Gemma 4 excelle dans le raisonnement, le codage, l’utilisation d’outils, les tâches à long contexte, les workflows agentiques et les tâches multimodales. Les variantes plus petites E2B et E4B sont conçues pour les téléphones et les ordinateurs portables.

Variante de Gemma 4
Détails
Le mieux adapté

E2B

Dense + PLE (contexte 128K) Prend en charge : texte, image, audio

Pour l’inférence sur téléphone / en périphérie, ASR, traduction vocale

E4B

Dense + PLE (contexte 128K) Prend en charge : texte, image, audio

Petit modèle pour ordinateurs portables et utilisation multimodale locale rapide

26B-A4B

MoE (contexte 256K) Prend en charge : texte, image

Meilleur compromis vitesse / qualité pour l’utilisation sur ordinateur

31B

Dense (contexte 256K) Prend en charge : texte, image

Meilleures performances avec une inférence plus lente

Dois-je choisir 26B-A4B ou 31B ?

  • 26B-A4B - équilibre vitesse et précision. Sa conception MoE le rend plus rapide que le 31B, avec 4B de paramètres actifs. Choisissez-le si la RAM est limitée et que vous acceptez de sacrifier un peu de qualité au profit de la vitesse.

  • 31B - actuellement le modèle Gemma 4 le plus performant. Choisissez-le pour une qualité maximale si vous disposez de suffisamment de mémoire et pouvez accepter des vitesses légèrement plus lentes.

Benchmarks de Gemma 4

Gemma 4
MMLU Pro
AIME 2026 (sans outils)
LiveCodeBench v6
MMMU Pro

31B

85.2%

89.2%

80.0%

76.9%

26B A4B

82.6%

88.3%

77.1%

73.8%

E4B

69.4%

42.5%

52.0%

52.6%

E2B

60.0%

37.5%

44.0%

44.2%

Exigences matérielles

Tableau : exigences matérielles recommandées pour l’inférence GGUF de Gemma 4 (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée). Vous pouvez utiliser Gemma 4 sur MacOS, les GPU NVIDIA RTX, etc.

Variante Gemma 4
4 bits
8 bits
BF16 / FP16

E2B

4 Go

5–8 Go

10 Go

E4B

5,5–6 Go

9–12 Go

16 Go

26B A4B

16–18 Go

28–30 Go

52 Go

31B

17–20 Go

34–38 Go

62 Go

circle-info

En règle générale, votre mémoire totale disponible doit au moins dépasser la taille du modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner en utilisant un déchargement partiel vers la RAM / le disque, mais la génération sera plus lente. Vous aurez également besoin de plus de calcul, selon la fenêtre de contexte utilisée.

Paramètres recommandés

Il est recommandé d’utiliser les paramètres par défaut de Gemma 4 de Google :

  • temperature = 1.0

  • top_p = 0.95

  • top_k = 64

Paramètres pratiques par défaut recommandés pour l’inférence locale :

  • Commencez avec un contexte de 32K pour la réactivité, puis augmentez

  • Conservez la pénalité de répétition/de présence désactivée ou à 1.0, sauf si vous observez une boucle.

  • Le token de fin de phrase est <turn|>

circle-info

Le contexte maximal de Gemma 4 est de 128K pour E2B / E4B et 256K pour 26B A4B / 31B.

Mode de réflexion

Par rapport aux anciens modèles de chat Gemma, Gemma 4 utilise les rôles standard système, assistant, et utilisateur et ajoute un contrôle explicite de la réflexion.

Comment activer la réflexion :

Ajoutez le token <|think|> au début du prompt système.

Réflexion activée

Réflexion désactivée

Comportement de sortie :

Lorsque la réflexion est activée, le modèle affiche son canal de raisonnement interne avant la réponse finale.

Lorsque la réflexion est désactivée, les modèles plus grands peuvent malgré tout émettre un bloc de pensée vide avant la réponse finale.

Par exemple, en utilisant «Quelle est la capitale de la France ? » :

puis il produit :

Règle de chat multi-tour :

Pour les conversations multi-tours, ne conservez dans l’historique du chat que la dernière réponse visible. Ne pas réinjectez pas les blocs de pensée précédents dans le tour suivant.

Exécuter les tutoriels Gemma 4

Comme les GGUF de Gemma 4 existent en plusieurs tailles, le point de départ recommandé pour les petits modèles est 8 bits et pour les grands modèles est 4 bits dynamique. GGUF Gemma 4arrow-up-right:

🦥 Guide Unsloth Studio🦙 Guide llama.cpp

Exécutez Gemma 4 gratuitement via notre notebook Google Colab Unsloth Studio :

🦥 Guide Unsloth Studio

Gemma 4 peut désormais être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur MacOS, Windows, Linux et :

circle-check
1

Installer Unsloth

Exécutez dans votre terminal :

MacOS, Linux, WSL :

Windows PowerShell :

2

Lancer Unsloth

MacOS, Linux, WSL et Windows :

Puis ouvrez http://localhost:8888 dans votre navigateur.

3

Rechercher et télécharger Gemma 4

Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un court assistant de démarrage pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.

Puis allez à l’onglet Studio Chat et recherchez Gemma 4 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

4

Exécuter Gemma 4

Les paramètres d’inférence devraient être configurés automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres.

Pour plus d’informations, vous pouvez consulter notre guide d’inférence d’Unsloth Studio.

🦙 Guide llama.cpp

Pour ce guide, nous utiliserons le 4 bits dynamique pour les 26B-A4B et 31B, et le 8 bits pour E2B et E4B. Voir : collection Gemma 4 GGUFarrow-up-right

Pour ces tutoriels, nous utiliserons llama.cpparrow-up-right pour une inférence locale rapide, surtout si vous avez un CPU.

1

Obtenez la dernière version llama.cpp sur GitHub iciarrow-up-right. Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez -DGGML_CUDA=ON par -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez normalement - la prise en charge Metal est activée par défaut.

2

Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez suivre les commandes ci-dessous, selon chaque modèle. UD-Q4_K_XL est le type de quantification. Vous pouvez également télécharger via Hugging Face (étape 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Il n’est pas nécessaire de définir la longueur du contexte, car llama.cpp utilise automatiquement la quantité exacte requise.

26B-A4B :

31B :

E4B :

E2B :

3

Téléchargez le modèle via (après installation de pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL ou d’autres versions quantifiées comme Q8_0 . Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET

4

Puis exécutez le modèle en mode conversation (avec vision mmproj-F16):

Quantifications dynamiques MLX

Nous avons également mis en ligne des quantifications dynamiques 4 bits et 8 bits pour un premier essai ! Vous pouvez les exécuter dans Unsloth Studio.

Pour les essayer, utilisez :

Bonnes pratiques Gemma 4

Exemples de prompts

Prompt simple de raisonnement

Prompt OCR / document

Pour l’OCR, utilisez un budget élevé de jetons visuels comme 560 ou 1120.

Prompt de comparaison multimodale

Prompt ASR audio

Prompt de traduction audio

Paramètres multimodaux

Pour de meilleurs résultats avec les prompts multimodaux, placez le contenu multimodal en premier :

  • Placez l’image et/ou l’audio avant le texte.

  • Pour la vidéo, fournissez d’abord une séquence d’images, puis l’instruction.

Résolution d’image variable

Gemma 4 prend en charge plusieurs budgets de jetons visuels :

  • 70

  • 140

  • 280

  • 560

  • 1120

Utilisez-les comme ceci :

  • 70 / 140: classification, légendage, compréhension rapide de la vidéo

  • 280 / 560: chat multimodal général, graphiques, écrans, raisonnement sur l’interface utilisateur

  • 1120: OCR, analyse de documents, écriture manuscrite, petit texte

Limites audio et vidéo

  • L’audio est disponible sur E2B et E4B uniquement.

  • L’audio prend en charge un maximum de 30 secondes.

  • La vidéo prend en charge un maximum de 60 secondes en supposant un traitement à 1 image par seconde .

Modèles de prompts audio

Prompt ASR

Prompt de traduction vocale

Ressources et liens

Mis à jour

Ce contenu vous a-t-il été utile ?