✨Gemma 4 - Comment exécuter localement
Exécutez les nouveaux modèles Gemma 4 de Google localement, y compris E2B, E4B, 26B A4B et 31B.
Gemma 4 est la nouvelle famille de modèles ouverts de Google DeepMind, incluant E2B, E4B, 26B-A4B, et 31B. Ces modèles multimodaux à raisonnement hybride prennent en charge plus de 140 langues, jusqu’à 256K de contexte, et existent en variantes denses et MoE. E2B et E4B prennent également en charge l’image et l’audio. Publié sous licence Apache-2.0, Gemma 4 peut s’exécuter localement sur votre appareil et être affiné dans Unsloth Studio.
Gemma 4 est désormais pris en charge dans Unsloth Studio pour l’entraînement et l’inférence GGUF / MLX !
Gemma-4-E2B et E4B s’exécute sur 5 Go de RAM (4 bits) ou 15 Go (précision complète 16 bits). Gemma-4-26B-A4B s’exécute sur 18 Go (4 bits) ou 28 Go (8 bits). Gemma-4-31B nécessite 20 Go de RAM (4 bits) ou 34 Go (8 bits). Voir : Gemma 4 GGUF d’Unsloth
Exécuter Gemma 4Affiner Gemma 4
Guide d’utilisation
Gemma 4 excelle dans le raisonnement, le codage, l’utilisation d’outils, les tâches à long contexte, les workflows agentiques et les tâches multimodales. Les variantes plus petites E2B et E4B sont conçues pour les téléphones et les ordinateurs portables.
E2B
Dense + PLE (contexte 128K) Prend en charge : texte, image, audio
Pour l’inférence sur téléphone / en périphérie, ASR, traduction vocale
E4B
Dense + PLE (contexte 128K) Prend en charge : texte, image, audio
Petit modèle pour ordinateurs portables et utilisation multimodale locale rapide
26B-A4B
MoE (contexte 256K) Prend en charge : texte, image
Meilleur compromis vitesse / qualité pour l’utilisation sur ordinateur
31B
Dense (contexte 256K) Prend en charge : texte, image
Meilleures performances avec une inférence plus lente
Dois-je choisir 26B-A4B ou 31B ?
26B-A4B - équilibre vitesse et précision. Sa conception MoE le rend plus rapide que le 31B, avec 4B de paramètres actifs. Choisissez-le si la RAM est limitée et que vous acceptez de sacrifier un peu de qualité au profit de la vitesse.
31B - actuellement le modèle Gemma 4 le plus performant. Choisissez-le pour une qualité maximale si vous disposez de suffisamment de mémoire et pouvez accepter des vitesses légèrement plus lentes.
Benchmarks de Gemma 4
31B
85.2%
89.2%
80.0%
76.9%
26B A4B
82.6%
88.3%
77.1%
73.8%
E4B
69.4%
42.5%
52.0%
52.6%
E2B
60.0%
37.5%
44.0%
44.2%
Exigences matérielles
Tableau : exigences matérielles recommandées pour l’inférence GGUF de Gemma 4 (unités = mémoire totale : RAM + VRAM, ou mémoire unifiée). Vous pouvez utiliser Gemma 4 sur MacOS, les GPU NVIDIA RTX, etc.
E2B
4 Go
5–8 Go
10 Go
E4B
5,5–6 Go
9–12 Go
16 Go
26B A4B
16–18 Go
28–30 Go
52 Go
31B
17–20 Go
34–38 Go
62 Go
En règle générale, votre mémoire totale disponible doit au moins dépasser la taille du modèle quantifié que vous téléchargez. Si ce n’est pas le cas, llama.cpp peut toujours fonctionner en utilisant un déchargement partiel vers la RAM / le disque, mais la génération sera plus lente. Vous aurez également besoin de plus de calcul, selon la fenêtre de contexte utilisée.
Paramètres recommandés
Il est recommandé d’utiliser les paramètres par défaut de Gemma 4 de Google :
temperature = 1.0top_p = 0.95top_k = 64
Paramètres pratiques par défaut recommandés pour l’inférence locale :
Commencez avec un contexte de 32K pour la réactivité, puis augmentez
Conservez la pénalité de répétition/de présence désactivée ou à 1.0, sauf si vous observez une boucle.
Le token de fin de phrase est
<turn|>
Le contexte maximal de Gemma 4 est de 128K pour E2B / E4B et 256K pour 26B A4B / 31B.
Mode de réflexion
Par rapport aux anciens modèles de chat Gemma, Gemma 4 utilise les rôles standard système, assistant, et utilisateur et ajoute un contrôle explicite de la réflexion.
Comment activer la réflexion :
Ajoutez le token <|think|> au début du prompt système.
Réflexion activée
Réflexion désactivée
Comportement de sortie :
Lorsque la réflexion est activée, le modèle affiche son canal de raisonnement interne avant la réponse finale.
Lorsque la réflexion est désactivée, les modèles plus grands peuvent malgré tout émettre un bloc de pensée vide avant la réponse finale.
Par exemple, en utilisant «Quelle est la capitale de la France ? » :
puis il produit :
Règle de chat multi-tour :
Pour les conversations multi-tours, ne conservez dans l’historique du chat que la dernière réponse visible. Ne pas réinjectez pas les blocs de pensée précédents dans le tour suivant.
Exécuter les tutoriels Gemma 4
Comme les GGUF de Gemma 4 existent en plusieurs tailles, le point de départ recommandé pour les petits modèles est 8 bits et pour les grands modèles est 4 bits dynamique. GGUF Gemma 4:
🦥 Guide Unsloth Studio🦙 Guide llama.cpp
Exécutez Gemma 4 gratuitement via notre notebook Google Colab Unsloth Studio :
🦥 Guide Unsloth Studio
Gemma 4 peut désormais être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Unsloth Studio vous permet d’exécuter des modèles localement sur MacOS, Windows, Linux et :
Gemma 4 fonctionne désormais dans Unsloth Studio !
Rechercher, télécharger, exécuter des GGUF et des modèles safetensor
Auto-réparation appel d’outils + recherche web
Exécution de code (Python, Bash)
Inférence automatique réglage des paramètres (temp, top-p, etc.)
Inférence rapide CPU + GPU via llama.cpp
Entraîner des LLMs 2x plus rapide avec 70 % de VRAM en moins

Rechercher et télécharger Gemma 4
Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un court assistant de démarrage pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.
Puis allez à l’onglet Studio Chat et recherchez Gemma 4 dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.
Exécuter Gemma 4
Les paramètres d’inférence devraient être configurés automatiquement lors de l’utilisation d’Unsloth Studio, mais vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de chat et d’autres paramètres.
Pour plus d’informations, vous pouvez consulter notre guide d’inférence d’Unsloth Studio.

🦙 Guide llama.cpp
Pour ce guide, nous utiliserons le 4 bits dynamique pour les 26B-A4B et 31B, et le 8 bits pour E2B et E4B. Voir : collection Gemma 4 GGUF
Pour ces tutoriels, nous utiliserons llama.cpp pour une inférence locale rapide, surtout si vous avez un CPU.
Obtenez la dernière version llama.cpp sur GitHub ici. Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez -DGGML_CUDA=ON par -DGGML_CUDA=OFF si vous n’avez pas de GPU ou si vous voulez simplement une inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez normalement - la prise en charge Metal est activée par défaut.
Si vous voulez utiliser llama.cpp directement pour charger des modèles, vous pouvez suivre les commandes ci-dessous, selon chaque modèle. UD-Q4_K_XL est le type de quantification. Vous pouvez également télécharger via Hugging Face (étape 3). C’est similaire à ollama run . Utilisez export LLAMA_CACHE="folder" pour forcer llama.cpp à enregistrer dans un emplacement spécifique. Il n’est pas nécessaire de définir la longueur du contexte, car llama.cpp utilise automatiquement la quantité exacte requise.
26B-A4B :
31B :
E4B :
E2B :
Téléchargez le modèle via (après installation de pip install huggingface_hub hf_transfer ). Vous pouvez choisir UD-Q4_K_XL ou d’autres versions quantifiées comme Q8_0 . Si les téléchargements se bloquent, voir : Hugging Face Hub, débogage XET
Puis exécutez le modèle en mode conversation (avec vision mmproj-F16):
Quantifications dynamiques MLX
Nous avons également mis en ligne des quantifications dynamiques 4 bits et 8 bits pour un premier essai ! Vous pouvez les exécuter dans Unsloth Studio.
Pour les essayer, utilisez :
Bonnes pratiques Gemma 4
Exemples de prompts
Prompt simple de raisonnement
Prompt OCR / document
Pour l’OCR, utilisez un budget élevé de jetons visuels comme 560 ou 1120.
Prompt de comparaison multimodale
Prompt ASR audio
Prompt de traduction audio
Paramètres multimodaux
Pour de meilleurs résultats avec les prompts multimodaux, placez le contenu multimodal en premier :
Placez l’image et/ou l’audio avant le texte.
Pour la vidéo, fournissez d’abord une séquence d’images, puis l’instruction.
Résolution d’image variable
Gemma 4 prend en charge plusieurs budgets de jetons visuels :
701402805601120
Utilisez-les comme ceci :
70 / 140: classification, légendage, compréhension rapide de la vidéo
280 / 560: chat multimodal général, graphiques, écrans, raisonnement sur l’interface utilisateur
1120: OCR, analyse de documents, écriture manuscrite, petit texte
Limites audio et vidéo
L’audio est disponible sur E2B et E4B uniquement.
L’audio prend en charge un maximum de 30 secondes.
La vidéo prend en charge un maximum de 60 secondes en supposant un traitement à 1 image par seconde .
Modèles de prompts audio
Prompt ASR
Prompt de traduction vocale
Ressources et liens
Mis à jour
Ce contenu vous a-t-il été utile ?

