flask-gearGuide de fine-tuning de Gemma 4

Entraînez Gemma 4 de Google avec Unsloth.

Vous pouvez désormais affiner Gemma 4 E2B, E4B, 26B-A4B et 31B avec Unslotharrow-up-right. La prise en charge inclut tous les vision, texte, audio et l’affinage RL.

  • Affiner Gemma 4 via nos gratuits notebooks Google Colab:

  • Si vous voulez préserver la capacité de raisonnement vous pouvez mélanger des exemples de type raisonnement avec des réponses directes (conservez au minimum 75 % de raisonnement). Sinon, vous pouvez l’émettre entièrement.

  • L’affinage complet (FFT) fonctionne aussi. Il utilisera 4x plus de VRAM.

  • Gemma 4 est puissant pour l’affinage multilingue, car il prend en charge 140 langues.

  • Après l’affinage, vous pouvez exporter vers GGUF (pour llama.cpp/Unsloth/Ollama/etc.)

Si vous utilisez une version plus ancienne (ou si vous affinez localement), mettez d’abord à jour :

Unsloth Studio :

Unsloth basé sur le code :

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Démarrage rapide

🦥 Guide d’Unsloth Studio

Gemma 4 peut être exécuté et affiné dans Unsloth Studio, notre nouvelle interface web open source pour l’IA locale. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur MacOS, Windows, Linux et :

1

Installer Unsloth

Exécutez dans votre terminal :

MacOS, Linux, WSL :

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell :

irm https://unsloth.ai/install.ps1 | iex
circle-check
2

Lancer Unsloth

MacOS, Linux, WSL et Windows :

unsloth studio -H 0.0.0.0 -p 8888

Puis ouvrez http://localhost:8888 dans votre navigateur.

3

Entraîner Gemma 4

Au premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant d’intégration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.

Recherchez Gemma 4 dans la barre de recherche et sélectionnez le modèle et le jeu de données souhaités. Ensuite, ajustez vos hyperparamètres et la longueur de contexte selon vos besoins.

4

Surveiller la progression de l’entraînement

Après avoir cliqué sur démarrer l’entraînement, vous pourrez surveiller et observer la progression de l’entraînement du modèle. La perte d’entraînement devrait diminuer régulièrement. Une fois terminé, le modèle sera automatiquement enregistré.

5

Exporter votre modèle affiné

Une fois terminé, Unsloth Studio vous permet d’exporter le modèle vers GGUF, safetensor, etc.

🦥 Guide d’Unsloth Core (basé sur le code)

Ci-dessous se trouve une recette SFT minimale (fonctionne pour l’affinage « texte uniquement »). Voir aussi notre section d’affinage vision .

circle-info

Si vous souhaitez faire GRPO, cela fonctionne dans Unsloth si vous désactivez l’inférence rapide vLLM et utilisez à la place l’inférence Unsloth. Suivez nos exemples de notebooks Vision RL .

circle-info

Si vous manquez de mémoire (OOM) :

  • Réduisez per_device_train_batch_size à 1 et/ou réduisez max_seq_length.

  • Conservez use_gradient_checkpointing="unsloth" activé (il est conçu pour réduire l’utilisation de VRAM et étendre la longueur du contexte).

Exemple de chargeur pour MoE (LoRA bf16) :

Une fois chargé, vous ajouterez des adaptateurs LoRA et entraînerez le modèle de manière similaire à l’exemple SFT ci-dessus.

Affinage MoE (26B-A4B)

Le 26B-A4B est le compromis vitesse / qualité de la gamme Gemma 4. Comme il s’agit d’un modèle MoE avec seulement un sous-ensemble de paramètres actifs par jeton, une approche d’affinage prudente consiste à :

  • utiliser LoRA plutôt qu’un affinage complet

  • préférer LoRA 16 bits / bf16 si la mémoire le permet

  • commencer d’abord avec des contextes plus courts et des rangs plus petits

  • augmenter l’échelle uniquement une fois le pipeline stable

Si votre objectif est la meilleure qualité et que vous avez plus de mémoire, utilisez plutôt 31B .

Affinage multimodal (E2B / E4B)

Comme E2B et E4B prennent en charge l’image et l’audio, ce sont les principales variantes de Gemma 4 pour l’affinage multimodal.

  • chargez le modèle multimodal avec FastVisionModel

  • conservez finetune_vision_layers = False au début

  • affinez uniquement les couches de langage, d’attention et MLP

  • activez les couches vision ou audio plus tard si votre tâche en a besoin

Exemple LoRA multimodal Gemma 4 :

Format d’exemple d’image

Rappelez-vous : pour les prompts multimodaux Gemma 4, placez l’image avant l’instruction textuelle.

Format d’exemple audio

L’audio est réservé à E2B / E4B uniquement. Gardez les clips courts et spécifiques à la tâche.

Enregistrement / export du modèle affiné

Vous pouvez consulter nos guides spécifiques d’inférence / déploiement pour Unsloth Studio, llama.cpp, vLLM, llama-server, Ollama ou SGLang.

Enregistrer en GGUF

Unsloth prend en charge l’enregistrement direct en GGUF :

Ou poussez les GGUF vers Hugging Face :

Si le modèle exporté se comporte moins bien dans un autre environnement d’exécution, Unsloth signale la cause la plus fréquente : mauvais modèle de conversation / jeton EOS au moment de l’inférence (vous devez utiliser le même modèle de conversation que celui avec lequel vous avez entraîné).

Pour plus de détails, lisez nos guides d’inférence :

Bonnes pratiques des données Gemma 4

Gemma 4 comporte quelques détails de formatage que vous devez garder à l’esprit.

1. Utilisez les rôles de conversation standard

Gemma 4 utilise les rôles standard :

  • system

  • user

  • assistant

Cela signifie que votre jeu de données SFT doit être rédigé dans un format de chat classique plutôt que dans les anciens formats de rôles spécifiques à Gemma.

2. Le mode réflexion est explicite

Pour activer le mode réflexion, placez <|think|> au début du prompt système.

Réflexion activée :

Réflexion désactivée :

Si vous souhaitez conserver un comportement de type réflexion pendant le SFT :

  • gardez un format cohérent

  • décidez si vous voulez entraîner sur des blocs de réflexion visibles ou sur des réponses finales uniquement

  • ne pas mélanger plusieurs formats de réflexion incompatibles dans le même jeu de données

Pour la plupart des assistants de production, la configuration la plus simple consiste à affiner sur la réponse finale visible uniquement.

3. Règle des conversations à plusieurs tours

Pour les conversations à plusieurs tours, ne gardez que la réponse finale visible dans l’historique de conversation. Ne pas réinjectez pas les blocs de réflexion précédents dans les tours suivants.

4. Le contenu multimodal doit venir en premier

Pour les prompts multimodaux Gemma 4, placez :

  • l’image avant le texte

  • l’audio avant le texte

  • les images vidéo avant le texte

Cela doit aussi se refléter dans vos données d’entraînement.

Mis à jour

Ce contenu vous a-t-il été utile ?