Guide de fine-tuning de Gemma 4
Entraînez Gemma 4 de Google avec Unsloth.
Vous pouvez désormais affiner Gemma 4 E2B, E4B, 26B-A4B et 31B avec Unsloth. La prise en charge inclut tous les vision, texte, audio et l’affinage RL.
Affiner Gemma 4 via nos gratuits notebooks Google Colab:
Si vous voulez préserver la capacité de raisonnement vous pouvez mélanger des exemples de type raisonnement avec des réponses directes (conservez au minimum 75 % de raisonnement). Sinon, vous pouvez l’émettre entièrement.
L’affinage complet (FFT) fonctionne aussi. Il utilisera 4x plus de VRAM.
Gemma 4 est puissant pour l’affinage multilingue, car il prend en charge 140 langues.
Après l’affinage, vous pouvez exporter vers GGUF (pour llama.cpp/Unsloth/Ollama/etc.)
Si vous utilisez une version plus ancienne (ou si vous affinez localement), mettez d’abord à jour :
Unsloth Studio :
Unsloth basé sur le code :
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooDémarrage rapide
🦥 Guide d’Unsloth Studio
Gemma 4 peut être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur MacOS, Windows, Linux et :
Entraîner des LLM 2x plus vite avec 70 % de VRAM en moins
Rechercher, télécharger, exécuter des GGUF et des modèles safetensor
Auto-réparation appel d’outils + recherche web
Exécution de code (Python, Bash)
Inférence automatique réglage des paramètres (temp, top-p, etc.)
Inférence CPU + GPU rapide via llama.cpp

Entraîner Gemma 4
Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.
Recherchez Gemma 4 dans la barre de recherche et sélectionnez le modèle et le jeu de données souhaités. Ensuite, ajustez vos hyperparamètres et la longueur de contexte selon vos besoins.

🦥 Guide d’Unsloth Core (basé sur le code)
Ci-dessous se trouve une recette SFT minimale (fonctionne pour l’affinage « texte uniquement »). Voir aussi notre section d’affinage vision .
Si vous manquez de mémoire (OOM) :
Réduisez
per_device_train_batch_sizeà 1 et/ou réduisezmax_seq_length.Conservez
use_gradient_checkpointing="unsloth"activé (il est conçu pour réduire l’utilisation de VRAM et étendre la longueur du contexte).
Exemple de chargeur pour MoE (LoRA bf16) :
Une fois chargé, vous ajouterez des adaptateurs LoRA et entraînerez le modèle de manière similaire à l’exemple SFT ci-dessus.
Affinage MoE (26B-A4B)
Le 26B-A4B est le compromis vitesse / qualité de la gamme Gemma 4. Comme il s’agit d’un modèle MoE avec seulement un sous-ensemble de paramètres actifs par jeton, une approche d’affinage prudente consiste à :
utiliser LoRA plutôt qu’un affinage complet
préférer LoRA 16 bits / bf16 si la mémoire le permet
commencer d’abord avec des contextes plus courts et des rangs plus petits
augmenter l’échelle uniquement une fois le pipeline stable
Si votre objectif est la meilleure qualité et que vous avez plus de mémoire, utilisez plutôt 31B .
Affinage multimodal (E2B / E4B)
Comme E2B et E4B prennent en charge l’image et l’audio, ce sont les principales variantes de Gemma 4 pour l’affinage multimodal.
chargez le modèle multimodal avec
FastVisionModelconservez
finetune_vision_layers = Falseau débutaffinez uniquement les couches de langage, d’attention et MLP
activez les couches vision ou audio plus tard si votre tâche en a besoin
Exemple LoRA multimodal Gemma 4 :
Format d’exemple d’image
Rappelez-vous : pour les prompts multimodaux Gemma 4, placez l’image avant l’instruction textuelle.
Format d’exemple audio
L’audio est réservé à E2B / E4B uniquement. Gardez les clips courts et spécifiques à la tâche.
Enregistrement / export du modèle affiné
Vous pouvez consulter nos guides spécifiques d’inférence / déploiement pour Unsloth Studio, llama.cpp, vLLM, llama-server, Ollama ou SGLang.
Enregistrer en GGUF
Unsloth prend en charge l’enregistrement direct en GGUF :
Ou poussez les GGUF vers Hugging Face :
Si le modèle exporté se comporte moins bien dans un autre environnement d’exécution, Unsloth signale la cause la plus fréquente : mauvais modèle de conversation / jeton EOS au moment de l’inférence (vous devez utiliser le même modèle de conversation que celui avec lequel vous avez entraîné).
Pour plus de détails, lisez nos guides d’inférence :
Bonnes pratiques des données Gemma 4
Gemma 4 comporte quelques détails de formatage que vous devez garder à l’esprit.
1. Utilisez les rôles de conversation standard
Gemma 4 utilise les rôles standard :
systemuserassistant
Cela signifie que votre jeu de données SFT doit être rédigé dans un format de chat classique plutôt que dans les anciens formats de rôles spécifiques à Gemma.
2. Le mode réflexion est explicite
Pour activer le mode réflexion, placez <|think|> au début du prompt système.
Réflexion activée :
Réflexion désactivée :
Si vous souhaitez conserver un comportement de type réflexion pendant le SFT :
gardez un format cohérent
décidez si vous voulez entraîner sur des blocs de réflexion visibles ou sur des réponses finales uniquement
ne pas mélanger plusieurs formats de réflexion incompatibles dans le même jeu de données
Pour la plupart des assistants de production, la configuration la plus simple consiste à affiner sur la réponse finale visible uniquement.
3. Règle des conversations à plusieurs tours
Pour les conversations à plusieurs tours, ne gardez que la réponse finale visible dans l’historique de conversation. Ne pas réinjectez pas les blocs de réflexion précédents dans les tours suivants.
4. Le contenu multimodal doit venir en premier
Pour les prompts multimodaux Gemma 4, placez :
l’image avant le texte
l’audio avant le texte
les images vidéo avant le texte
Cela doit aussi se refléter dans vos données d’entraînement.
Mis à jour
Ce contenu vous a-t-il été utile ?



