flask-gearGemma 4 Feinabstimmungsleitfaden

Trainiere Gemma 4 von Google mit Unsloth.

Sie können jetzt Googles Gemma 4 E2B, E4B, 26B-A4B und 31B mit Unslotharrow-up-right. Die Unterstützung umfasst alle Vision--, Text-, Audio- und RL-Fine-Tuning.

  • Fine-Tuning Gemma 4 über unsere kostenlosen Google Colab-Notebooks:

  • Wenn Sie Schlussfolgerungsfähigkeit bewahren möchten, können Sie Beispiele im Reasoning-Stil mit direkten Antworten mischen (mindestens 75 % Reasoning beibehalten). Andernfalls können Sie es vollständig ausgeben.

  • Full Fine-Tuning (FFT) funktioniert ebenfalls. Es verwendet 4x mehr VRAM.

  • Gemma 4 ist leistungsstark für mehrsprachiges Fine-Tuning, da es 140 Sprachen unterstützt.

  • Nach dem Fine-Tuning können Sie exportieren nach GGUF (für llama.cpp/Unsloth/Ollama/usw.)

Wenn Sie eine ältere Version verwenden (oder lokal Fine-Tuning durchführen), aktualisieren Sie zuerst:

Unsloth Studio:

Unsloth codebasiert:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Schnellstart

🦥 Unsloth Studio-Leitfaden

Gemma 4 kann in Unsloth Studioausgeführt und feinabgestimmt werden, unserer neuen Open-Source-Weboberfläche für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:

1

Unsloth installieren

Führen Sie in Ihrem Terminal aus:

MacOS, Linux, WSL:

curl -fsSL https://unsloth.ai/install.sh | sh

Windows PowerShell:

irm https://unsloth.ai/install.ps1 | iex
circle-check
2

Unsloth starten

MacOS, Linux, WSL und Windows:

unsloth studio -H 0.0.0.0 -p 8888

Dann öffnen Sie http://localhost:8888 in Ihrem Browser.

3

Gemma 4 trainieren

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Suchen Sie in der Suchleiste nach Gemma 4 und wählen Sie Ihr gewünschtes Modell und Ihren gewünschten Datensatz aus. Passen Sie als Nächstes Ihre Hyperparameter und die Kontextlänge nach Wunsch an.

4

Trainingsfortschritt überwachen

Nachdem Sie auf Training starten geklickt haben, können Sie den Trainingsfortschritt des Modells überwachen und beobachten. Der Trainingsverlust sollte stetig sinken. Sobald das Training abgeschlossen ist, wird das Modell automatisch gespeichert.

5

Ihr feinabgestimmtes Modell exportieren

Sobald der Vorgang abgeschlossen ist, können Sie mit Unsloth Studio das Modell in GGUF-, Safetensor- usw. Formate exportieren.

🦥 Unsloth Core (codebasiert)-Leitfaden

Unten steht ein minimales SFT-Rezept (funktioniert für „text-only“-Fine-Tuning). Siehe auch unseren Vision-Fine-Tuning Abschnitt.

circle-info

Wenn Sie GRPOmachen möchten, funktioniert es in Unsloth, wenn Sie die schnelle vLLM-Inferenz deaktivieren und stattdessen die Unsloth-Inferenz verwenden. Folgen Sie unseren Vision-RL Notebook-Beispielen.

circle-info

Wenn Sie OOM erhalten:

  • Reduzieren Sie per_device_train_batch_size auf 1 und/oder verringern Sie max_seq_length.

  • Lassen Sie use_gradient_checkpointing="unsloth" eingeschaltet (es ist dafür ausgelegt, den VRAM-Verbrauch zu reduzieren und die Kontextlänge zu erweitern).

Ladebeispiel für MoE (bf16 LoRA):

Sobald es geladen ist, hängen Sie LoRA-Adapter an und trainieren ähnlich wie im obigen SFT-Beispiel.

MoE-Fine-Tuning (26B-A4B)

Das 26B-A4B Modell ist der Mittelweg zwischen Geschwindigkeit und Qualität in der Gemma-4-Reihe. Da es sich um ein MoE Modell handelt, bei dem pro Token nur eine Teilmenge der Parameter aktiv ist, ist ein konservativer Fine-Tuning-Ansatz:

  • verwenden Sie LoRA anstatt Full Fine-Tuning

  • bevorzugen Sie 16-Bit / bf16 LoRA wenn der Speicher es zulässt

  • beginnen Sie zuerst mit kürzeren Kontexten und kleineren Rängen

  • skalieren Sie erst hoch, wenn die Pipeline stabil ist

Wenn Ihr Ziel die höchste Qualität ist und Sie mehr Speicher haben, verwenden Sie stattdessen 31B .

Multimodales Fine-Tuning (E2B / E4B)

Da E2B und E4B unterstützen Bild- und Audio-sind sie die wichtigsten Gemma-4-Varianten für multimodales Fine-Tuning.

  • laden Sie das multimodale Modell mit FastVisionModel

  • behalten Sie finetune_vision_layers = False zuerst

  • das Fine-Tuning nur der Sprach-, Attention- und MLP-Schichten

  • aktivieren Sie Vision- oder Audioschichten später, wenn Ihre Aufgabe es erfordert

Gemma 4 Multimodal LoRA-Beispiel:

Bildbeispielformat

Denken Sie daran: Bei multimodalen Gemma-4-Prompts setzen Sie das Bild vor die Textanweisung.

Audio-Beispielformat

Audio ist nur für E2B / E4B gedacht. Halten Sie Clips kurz und auf die Aufgabe zugeschnitten.

Feinabgestimmtes Modell speichern / exportieren

Sie können unsere speziellen Inferenz-/Bereitstellungsanleitungen einsehen für Unsloth Studio, llama.cpp, vLLM, llama-server, Ollama oder SGLang.

In GGUF speichern

Unsloth unterstützt das direkte Speichern in GGUF:

Oder pushen Sie GGUFs zu Hugging Face:

Wenn sich das exportierte Modell in einer anderen Laufzeitumgebung schlechter verhält, markiert Unsloth die häufigste Ursache: falsches Chat-Template / EOS-Token zur Inferenzzeit (Sie müssen dasselbe Chat-Template verwenden, mit dem Sie trainiert haben).

Für mehr Details lesen Sie unsere Inferenzleitfäden:

Gemma 4 Best Practices für Daten

Gemma 4 hat einige Formatierungsdetails, die Sie beachten müssen.

1. Verwenden Sie standardmäßige Chat-Rollen

Gemma 4 verwendet die Standardrollen:

  • system

  • user

  • assistant

Das bedeutet, dass Ihr SFT-Datensatz im normalen Chat-Format geschrieben sein sollte und nicht in älteren Gemma-spezifischen Rollenformaten.

2. Denkmodus ist explizit

Um den Denkmodus zu aktivieren, setzen Sie <|think|> an den Anfang des System-Prompts.

Denken aktiviert:

Denken deaktiviert:

Wenn Sie das denkstilartige Verhalten während SFT beibehalten möchten:

  • halten Sie das Format konsistent

  • entscheiden Sie, ob Sie trainieren möchten auf sichtbaren Gedankenblöcken oder auf nur endgültigen Antworten

  • tun Sie nicht mehrere inkompatible Gedankenformate im selben Datensatz mischen

Für die meisten Produktionsassistenten ist die einfachste Einrichtung, auf der nur final sichtbaren Antwort.

3. Regel für Mehrfach-Dialoge

Bei mehrstufigen Gesprächen behalten Sie nur die final sichtbare Antwort im Gesprächsverlauf. Fügen Sie Sie frühere Gedankenblöcke nicht wieder in spätere Durchgänge ein.

4. Multimodale Inhalte sollten zuerst kommen

Für multimodale Gemma-4-Prompts setzen Sie:

  • Bild vor Text

  • Audio vor Text

  • Videoframes vor Text

Das sollte sich auch in Ihren Trainingsdaten widerspiegeln.

Zuletzt aktualisiert

War das hilfreich?