Gemma 4 Feinabstimmungsleitfaden
Trainiere Gemma 4 von Google mit Unsloth.
Sie können jetzt Googles Gemma 4 E2B, E4B, 26B-A4B und 31B mit Unsloth. Die Unterstützung umfasst alle Vision--, Text-, Audio- und RL-Fine-Tuning.
Fine-Tuning Gemma 4 über unsere kostenlosen Google Colab-Notebooks:
Wenn Sie Schlussfolgerungsfähigkeit bewahren möchten, können Sie Beispiele im Reasoning-Stil mit direkten Antworten mischen (mindestens 75 % Reasoning beibehalten). Andernfalls können Sie es vollständig ausgeben.
Full Fine-Tuning (FFT) funktioniert ebenfalls. Es verwendet 4x mehr VRAM.
Gemma 4 ist leistungsstark für mehrsprachiges Fine-Tuning, da es 140 Sprachen unterstützt.
Nach dem Fine-Tuning können Sie exportieren nach GGUF (für llama.cpp/Unsloth/Ollama/usw.)
Wenn Sie eine ältere Version verwenden (oder lokal Fine-Tuning durchführen), aktualisieren Sie zuerst:
Unsloth Studio:
Unsloth codebasiert:
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zooSchnellstart
🦥 Unsloth Studio-Leitfaden
Gemma 4 kann in Unsloth Studioausgeführt und feinabgestimmt werden, unserer neuen Open-Source-Weboberfläche für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:
LLMs trainieren 2x schneller mit 70 % weniger VRAM
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilende Tool-Aufrufe + Websuche
Codeausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
Schnelle CPU- + GPU-Inferenz über llama.cpp

Gemma 4 trainieren
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.
Suchen Sie in der Suchleiste nach Gemma 4 und wählen Sie Ihr gewünschtes Modell und Ihren gewünschten Datensatz aus. Passen Sie als Nächstes Ihre Hyperparameter und die Kontextlänge nach Wunsch an.

🦥 Unsloth Core (codebasiert)-Leitfaden
Unten steht ein minimales SFT-Rezept (funktioniert für „text-only“-Fine-Tuning). Siehe auch unseren Vision-Fine-Tuning Abschnitt.
Wenn Sie OOM erhalten:
Reduzieren Sie
per_device_train_batch_sizeauf 1 und/oder verringern Siemax_seq_length.Lassen Sie
use_gradient_checkpointing="unsloth"eingeschaltet (es ist dafür ausgelegt, den VRAM-Verbrauch zu reduzieren und die Kontextlänge zu erweitern).
Ladebeispiel für MoE (bf16 LoRA):
Sobald es geladen ist, hängen Sie LoRA-Adapter an und trainieren ähnlich wie im obigen SFT-Beispiel.
MoE-Fine-Tuning (26B-A4B)
Das 26B-A4B Modell ist der Mittelweg zwischen Geschwindigkeit und Qualität in der Gemma-4-Reihe. Da es sich um ein MoE Modell handelt, bei dem pro Token nur eine Teilmenge der Parameter aktiv ist, ist ein konservativer Fine-Tuning-Ansatz:
verwenden Sie LoRA anstatt Full Fine-Tuning
bevorzugen Sie 16-Bit / bf16 LoRA wenn der Speicher es zulässt
beginnen Sie zuerst mit kürzeren Kontexten und kleineren Rängen
skalieren Sie erst hoch, wenn die Pipeline stabil ist
Wenn Ihr Ziel die höchste Qualität ist und Sie mehr Speicher haben, verwenden Sie stattdessen 31B .
Multimodales Fine-Tuning (E2B / E4B)
Da E2B und E4B unterstützen Bild- und Audio-sind sie die wichtigsten Gemma-4-Varianten für multimodales Fine-Tuning.
laden Sie das multimodale Modell mit
FastVisionModelbehalten Sie
finetune_vision_layers = Falsezuerstdas Fine-Tuning nur der Sprach-, Attention- und MLP-Schichten
aktivieren Sie Vision- oder Audioschichten später, wenn Ihre Aufgabe es erfordert
Gemma 4 Multimodal LoRA-Beispiel:
Bildbeispielformat
Denken Sie daran: Bei multimodalen Gemma-4-Prompts setzen Sie das Bild vor die Textanweisung.
Audio-Beispielformat
Audio ist nur für E2B / E4B gedacht. Halten Sie Clips kurz und auf die Aufgabe zugeschnitten.
Feinabgestimmtes Modell speichern / exportieren
Sie können unsere speziellen Inferenz-/Bereitstellungsanleitungen einsehen für Unsloth Studio, llama.cpp, vLLM, llama-server, Ollama oder SGLang.
In GGUF speichern
Unsloth unterstützt das direkte Speichern in GGUF:
Oder pushen Sie GGUFs zu Hugging Face:
Wenn sich das exportierte Modell in einer anderen Laufzeitumgebung schlechter verhält, markiert Unsloth die häufigste Ursache: falsches Chat-Template / EOS-Token zur Inferenzzeit (Sie müssen dasselbe Chat-Template verwenden, mit dem Sie trainiert haben).
Für mehr Details lesen Sie unsere Inferenzleitfäden:
Gemma 4 Best Practices für Daten
Gemma 4 hat einige Formatierungsdetails, die Sie beachten müssen.
1. Verwenden Sie standardmäßige Chat-Rollen
Gemma 4 verwendet die Standardrollen:
systemuserassistant
Das bedeutet, dass Ihr SFT-Datensatz im normalen Chat-Format geschrieben sein sollte und nicht in älteren Gemma-spezifischen Rollenformaten.
2. Denkmodus ist explizit
Um den Denkmodus zu aktivieren, setzen Sie <|think|> an den Anfang des System-Prompts.
Denken aktiviert:
Denken deaktiviert:
Wenn Sie das denkstilartige Verhalten während SFT beibehalten möchten:
halten Sie das Format konsistent
entscheiden Sie, ob Sie trainieren möchten auf sichtbaren Gedankenblöcken oder auf nur endgültigen Antworten
tun Sie nicht mehrere inkompatible Gedankenformate im selben Datensatz mischen
Für die meisten Produktionsassistenten ist die einfachste Einrichtung, auf der nur final sichtbaren Antwort.
3. Regel für Mehrfach-Dialoge
Bei mehrstufigen Gesprächen behalten Sie nur die final sichtbare Antwort im Gesprächsverlauf. Fügen Sie Sie frühere Gedankenblöcke nicht wieder in spätere Durchgänge ein.
4. Multimodale Inhalte sollten zuerst kommen
Für multimodale Gemma-4-Prompts setzen Sie:
Bild vor Text
Audio vor Text
Videoframes vor Text
Das sollte sich auch in Ihren Trainingsdaten widerspiegeln.
Zuletzt aktualisiert
War das hilfreich?



