✨Gemma 3 - Anleitung zum Ausführen

Wie man Gemma 3 effektiv mit unseren GGUFs auf llama.cpp, Ollama, Open WebUI ausführt und wie man mit Unsloth finetunt!

Google veröffentlicht Gemma 3 mit einem neuen 270M-Modell und den bisherigen Größen 1B, 4B, 12B und 27B. Die 270M- und 1B-Modelle sind nur für Text, während größere Modelle sowohl Text als auch Vision verarbeiten. Wir stellen GGUFs bereit sowie eine Anleitung, wie man es effektiv ausführt, und wie man feinabstimmt & macht RL mit Gemma 3!

NEU 14. Aug. 2025 Update: Probiere unser Fine-Tuning Gemma 3 (270M) Notebook und GGUFs zum Ausführen.

Siehe auch unser Gemma 3n Leitfaden.

Ausführungs-Tutorial Feinabstimmungs-Tutorial

Unsloth ist das einzige Framework, das auf float16-Maschinen für Gemma 3 Inferenz und Training funktioniert. Das bedeutet, Colab-Notebooks mit kostenlosen Tesla T4 GPUs funktionieren ebenfalls!

Feinabstimmung von Gemma 3 (4B) mit Vision-Unterstützung mit unserem kostenloses Colab-Notebook

Laut dem Gemma-Team ist die optimale Konfiguration für die Inferenz temperature = 1.0, top_k = 64, top_p = 0.95, min_p = 0.0

Unsloth Gemma 3 Uploads mit optimalen Konfigurationen:

GGUF

Unsloth Dynamic 4-bit Instruct

16-Bit Instruct

270M - neu
1B
4B
12B
27B

⚙️ Empfohlene Inferenz-Einstellungen

Laut dem Gemma-Team sind die offiziell empfohlenen Einstellungen für die Inferenz:

Temperatur von 1,0
Top_K von 64
Min_P von 0,00 (optional, aber 0,01 funktioniert gut, der Standard in llama.cpp ist 0,1)
Top_P von 0.95
Repetition Penalty von 1.0. (1.0 bedeutet deaktiviert in llama.cpp und transformers)

Chat-Vorlage:

<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n

Chat-Vorlage mit \nZeilenumbrüchen gerendert (außer dem letzten)

<bos><start_of_turn>user
Hello!<end_of_turn>
<start_of_turn>model
Hey there!<end_of_turn>
<start_of_turn>user
What is 1+1?<end_of_turn>
<start_of_turn>model\n

llama.cpp und andere Inferenz-Engines fügen automatisch ein <bos> hinzu - FÜGEN SIE NICHT ZWEI <bos>-Tokens HINZU! Sie sollten das <bos> beim Prompten des Modells ignorieren!

✨Gemma 3 auf deinem Telefon ausführen

Um die Modelle auf deinem Telefon auszuführen, empfehlen wir jede mobile App, die GGUFs lokal auf Edge-Geräten wie Telefonen ausführen kann. Nach der Feinabstimmung kannst du es in GGUF exportieren und dann lokal auf deinem Telefon ausführen. Stelle sicher, dass dein Telefon genügend RAM/Leistung hat, um die Modelle zu verarbeiten, da es überhitzen kann; daher empfehlen wir für diesen Anwendungsfall Gemma 3 270M oder die Gemma 3n-Modelle. Du kannst das Open-Source-Projekt AnythingLLM's Mobile App, die du auf Android hier oder ChatterUI, die großartige Apps zum Ausführen von GGUFs auf deinem Telefon sind.

Denke daran, du kannst den Modellnamen 'gemma-3-27b-it-GGUF' in jedem Tutorial in ein beliebiges Gemma-Modell wie 'gemma-3-270m-it-GGUF:Q8_K_XL' ändern.

🦙 Tutorial: Wie man Gemma 3 in Ollama ausführt

Installieren Sie ollama falls du es noch nicht getan hast!

apt-get update
apt-get install pciutils -y
curl -fsSL https://ollama.com/install.sh | sh

Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params in unserem Hugging Face Upload! Du kannst den Modellnamen 'gemma-3-27b-it-GGUF' in jedes Gemma-Modell wie 'gemma-3-270m-it-GGUF:Q8_K_XL' ändern.

ollama run hf.co/unsloth/gemma-3-27b-it-GGUF:Q4_K_XL

📖 Tutorial: Wie man Gemma 3 27B in llama.cpp ausführt

Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:Q4_K_XL) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run

./llama.cpp/llama-mtmd-cli \
    -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_XL

ODER lade das Modell herunter über (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst Q4_K_M wählen oder andere quantisierte Versionen (wie BF16 in voller Präzision). Weitere Versionen unter: https://huggingface.co/unsloth/gemma-3-27b-it-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/gemma-3-27b-it-GGUF",
    local_dir = "unsloth/gemma-3-27b-it-GGUF",
    allow_patterns = ["*Q4_K_XL*", "mmproj-BF16.gguf"], # Für Q4_K_M
)

Führe Unsloths Flappy Bird-Test aus
Bearbeiten --threads 32 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 für Kontextlänge (Gemma 3 unterstützt 128K Kontextlänge!), --n-gpu-layers 99 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
Für Konversationsmodus:

./llama.cpp/llama-mtmd-cli \
    --model unsloth/gemma-3-27b-it-GGUF/gemma-3-27b-it-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-3-27b-it-GGUF/mmproj-BF16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 1.0 \
    --repeat-penalty 1.0 \
    --min-p 0.01 \
    --top-k 64 \
    --top-p 0.95

Für Nicht-Konversationsmodus zum Testen von Flappy Bird:

./llama.cpp/llama-cli \
    --model unsloth/gemma-3-27b-it-GGUF/gemma-3-27b-it-Q4_K_XL.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 1.0 \
    --repeat-penalty 1.0 \
    --min-p 0.01 \
    --top-k 64 \
    --top-p 0.95 \
    -no-cnv \
    --prompt "<start_of_turn>user\nCreate a Flappy Bird game in Python. You must include these things:\n1. You must use pygame.\n2. The background color should be randomly chosen and is a light shade. Start with a light blue color.\n3. Pressing SPACE multiple times will accelerate the bird.\n4. The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.\n5. Place on the bottom some land colored as dark brown or yellow chosen randomly.\n6. Make a score shown on the top right side. Increment if you pass pipes and don't hit them.\n7. Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.\n8. When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.\nThe final game should be inside a markdown section in Python. Check your code for errors and fix them before the final markdown section.<end_of_turn>\n<start_of_turn>model\n"

Die vollständige Eingabe aus unserem https://unsloth.ai/blog/deepseekr1-dynamic 1.58bit Blog ist:

Denke daran <bos> zu entfernen, da Gemma 3 automatisch ein <bos> hinzufügt!

<start_of_turn>user
Erstelle ein Flappy-Bird-Spiel in Python. Du musst Folgendes einschließen:
1. Du musst pygame verwenden.
2. Die Hintergrundfarbe sollte zufällig gewählt werden und einen hellen Ton haben. Beginne mit einem hellen Blauton.
3. Das mehrfache Drücken von SPACE wird den Vogel beschleunigen.
4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als eine dunkle Farbe gewählt werden.
5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.
6. Zeige eine Punktzahl oben rechts an. Erhöhe die Punktzahl, wenn du Rohre passiert und nicht getroffen wirst.
7. Erzeuge zufällig verteilte Rohre mit genügend Platz. Färbe sie zufällig dunkelgrün oder hellbraun oder in einem dunklen Grauton.
8. Wenn du verlierst, zeige die Bestpunktzahl an. Platziere den Text innerhalb des Bildschirms. Das Drücken von q oder Esc beendet das Spiel. Neustarten erfolgt durch erneutes Drücken von SPACE.
Das finale Spiel sollte in einem Markdown-Abschnitt in Python sein. Überprüfe deinen Code auf Fehler

🦥 Feinabstimmung von Gemma 3 in Unsloth

Unsloth ist das einzige Framework, das auf float16-Maschinen für Gemma 3 Inferenz und Training funktioniert. Das bedeutet, Colab-Notebooks mit kostenlosen Tesla T4 GPUs funktionieren ebenfalls!

Probiere unser neues Gemma 3 (270M) Notebook das das 270M-Parameter-Modell sehr schlau im Schachspielen macht und den nächsten Schachzug vorhersagen kann.
Feinabstimmung von Gemma 3 (4B) mit unseren Notebooks für: Text oder Vision
Oder feinabstimmen Gemma 3n (E4B) mit Text • Vision • Audio

Beim Versuch eines vollständigen Fine-Tunes (FFT) von Gemma 3 sind standardmäßig alle Schichten auf float32 auf float16-Geräten. Unsloth erwartet float16 und castet dynamisch hoch. Um das zu beheben, führe model.to(torch.float16) nach dem Laden aus, oder verwende eine GPU mit bfloat16-Unterstützung.

Unsloth Fine-Tuning Fixes

Unsere Lösung in Unsloth ist dreifach:

Behalte alle Zwischenaktivierungen im bfloat16-Format – kann float32 sein, aber das verwendet 2x mehr VRAM oder RAM (über Unsloths asynchrones Gradient Checkpointing)
Führe alle Matrixmultiplikationen in float16 mit Tensor Cores aus, aber mache manuelles Hoch- / Runtercasten ohne die Hilfe von Pythons gemischter Präzisions-Autocast.
Caste alle anderen Optionen, die keine Matrixmultiplikationen benötigen (Layernorms), auf float32 hoch.

🤔 Gemma 3 Fehlerbehebungsanalyse

Zuerst, bevor wir finetunen oder Gemma 3 ausführen, haben wir festgestellt, dass bei Verwendung von float16 gemischter Präzision Gradienten und Aktivierungen unendlich werden leider. Das passiert bei T4-GPUs, der RTX-20x-Serie und V100-GPUs, wo sie nur float16 Tensor Cores haben.

Bei neueren GPUs wie RTX-30x oder höher, A100s, H100s usw. haben diese GPUs bfloat16 Tensor Cores, sodass dieses Problem nicht auftritt! Aber warum?

Float16 kann nur Zahlen bis zu 65504, während bfloat16 riesige Zahlen bis zu 10^38darstellen kann! Aber beachte, dass beide Zahlformate nur 16 Bit verwenden! Das liegt daran, dass float16 mehr Bits zuordnet, damit es kleinere Dezimalstellen besser darstellen kann, während bfloat16 Bruchteile nicht gut darstellen kann.

Aber warum float16? Lass uns einfach float32 verwenden! Leider ist float32 auf GPUs bei Matrixmultiplikationen sehr langsam – manchmal 4 bis 10x langsamer! Daher können wir das nicht tun.

VorherigeQwen3-2507 NächsteGemma 3n

Zuletzt aktualisiert vor 18 Tagen

War das hilfreich?

hashtag⚙️ Empfohlene Inferenz-Einstellungen

hashtag✨Gemma 3 auf deinem Telefon ausführen

hashtag🦙 Tutorial: Wie man Gemma 3 in Ollama ausführt

hashtag📖 Tutorial: Wie man Gemma 3 27B in llama.cpp ausführt

hashtag🦥 Feinabstimmung von Gemma 3 in Unsloth

hashtagUnsloth Fine-Tuning Fixes

hashtag🤔 Gemma 3 Fehlerbehebungsanalyse

⚙️ Empfohlene Inferenz-Einstellungen

✨Gemma 3 auf deinem Telefon ausführen

🦙 Tutorial: Wie man Gemma 3 in Ollama ausführt

📖 Tutorial: Wie man Gemma 3 27B in llama.cpp ausführt

🦥 Feinabstimmung von Gemma 3 in Unsloth

Unsloth Fine-Tuning Fixes

🤔 Gemma 3 Fehlerbehebungsanalyse