✨Gemma 4 - So führst du es lokal aus
Führe Googles neue Gemma-4-Modelle lokal aus, einschließlich E2B, E4B, 26B A4B und 31B.
Gemma 4 ist die neue Familie offener Modelle von Google DeepMind, darunter E2B, E4B, 26B-A4B, und 31B. Diese multimodalen Modelle mit hybridem Denken unterstützen über 140 Sprachen, bis zu 256K Kontext, und sind sowohl als Dense- als auch als MoE-Varianten verfügbar. E2B und E4B unterstützen außerdem Bild und Audio. Unter der Apache-2.0-Lizenz veröffentlicht, kann Gemma 4 lokal auf Ihrem Gerät ausgeführt und in Unsloth Studio.
Gemma 4 wird jetzt unterstützt in Unsloth Studio zum Training und für GGUF- / MLX-Inferenz!
Gemma-4-E2B und E4B läuft auf 5 GB RAM (4-Bit) oder 15 GB (volle 16-Bit-Präzision). Gemma-4-26B-A4B läuft auf 18 GB (4-Bit) oder 28 GB (8-Bit). Gemma-4-31B benötigt 20 GB RAM (4-Bit) oder 34 GB (8-Bit). Siehe: Unsloth Gemma 4 GGUFs
Gemma 4 ausführenGemma 4 feinabstimmen
Nutzungsleitfaden
Gemma 4 zeichnet sich bei Schlussfolgerungen, Programmierung, Werkzeugnutzung, Aufgaben mit langem Kontext, agentenbasierten Workflows und multimodalen Aufgaben aus. Die kleineren Varianten E2B und E4B sind für Telefone und Laptops konzipiert.
E2B
Dense + PLE (128K Kontext) Unterstützt: Text, Bild, Audio
Für Inferenz auf dem Smartphone / am Edge, ASR, Sprachübersetzung
E4B
Dense + PLE (128K Kontext) Unterstützt: Text, Bild, Audio
Kleines Modell für Laptops und schnelle lokale multimodale Nutzung
26B-A4B
MoE (256K Kontext) Unterstützt: Text, Bild
Bester Kompromiss aus Geschwindigkeit und Qualität für die Nutzung am Computer
31B
Dense (256K Kontext) Unterstützt: Text, Bild
Beste Leistung bei langsamerer Inferenz
Soll ich 26B-A4B oder 31B wählen?
26B-A4B - balanciert Geschwindigkeit und Genauigkeit. Sein MoE-Design macht es schneller als 31B, mit 4B aktiven Parametern. Wählen Sie es, wenn der RAM begrenzt ist und Sie bereit sind, etwas Qualität für Geschwindigkeit zu opfern.
31B - derzeit das stärkste Gemma-4-Modell. Wählen Sie es für maximale Qualität, wenn Sie genügend Speicher haben und etwas langsamere Geschwindigkeiten akzeptieren können.
Gemma 4 Benchmarks
31B
85.2%
89.2%
80.0%
76.9%
26B A4B
82.6%
88.3%
77.1%
73.8%
E4B
69.4%
42.5%
52.0%
52.6%
E2B
60.0%
37.5%
44.0%
44.2%
Hardwareanforderungen
Tabelle: Empfohlene Hardwareanforderungen für Gemma 4 Inference GGUF (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher). Sie können Gemma 4 auf MacOS, NVIDIA RTX-GPUs usw. verwenden.
E2B
4 GB
5–8 GB
10 GB
E4B
5,5–6 GB
9–12 GB
16 GB
26B A4B
16–18 GB
28–30 GB
52 GB
31B
17–20 GB
34–38 GB
62 GB
Als Faustregel sollte Ihr insgesamt verfügbarer Speicher die Größe des quantisierten Modells, das Sie herunterladen, mindestens übersteigen. Ist das nicht der Fall, kann llama.cpp weiterhin mit teilweisem RAM-/Datenträger-Entladen ausgeführt werden, die Generierung wird jedoch langsamer. Je nach verwendetem Kontextfenster benötigen Sie außerdem mehr Rechenleistung.
Empfohlene Einstellungen
Es wird empfohlen, die Standardparameter von Google für Gemma 4 zu verwenden:
temperature = 1.0top_p = 0.95top_k = 64
Empfohlene praktische Standardwerte für lokale Inferenz:
Beginnen Sie mit 32K Kontext für Reaktionsfähigkeit, dann erhöhen Sie
Behalten Sie Wiederholungs-/Präsenzstrafe deaktiviert oder auf 1.0, sofern Sie keine Schleifen beobachten.
Das Ende-der-Satz-Token ist
<turn|>
Der maximale Kontext von Gemma 4 ist 128K für E2B / E4B und 256K für 26B A4B / 31B.
Denkmodus
Im Vergleich zu älteren Gemma-Chatvorlagen verwendet Gemma 4 die standardmäßigen system, assistant, und user Rollen und fügt eine explizite Denksteuerung hinzu.
Wie man Denken aktiviert:
Fügen Sie das Token <|think|> an den Anfang des System-Prompts.
Denken aktiviert
Denken deaktiviert
Ausgabeverhalten:
Wenn Denken aktiviert ist, gibt das Modell vor der endgültigen Antwort seinen internen Denkkanal aus.
Wenn Denken deaktiviert ist, können die größeren Modelle dennoch einen leeren Denkblock vor der endgültigen Antwort ausgeben.
Zum Beispiel bei "Was ist die Hauptstadt von Frankreich?":
dann gibt es Folgendes aus:
Regel für Mehrfachdialoge:
Für Gespräche mit mehreren Runden nur die letzte sichtbare Antwort im Chatverlauf behalten. Tun Sie nicht frühere Denkblöcke in die nächste Runde zurückspeisen.
Gemma-4-Tutorials ausführen
Da Gemma 4 GGUFs in mehreren Größen erhältlich sind, ist der empfohlene Startpunkt für die kleinen Modelle 8-Bit und für die größeren Modelle Dynamisches 4-Bit. Gemma 4 GGUFs:
🦥 Unsloth Studio-Anleitung🦙 Llama.cpp-Anleitung
Gemma 4 kostenlos über unser Unsloth-Studio-Google-Colab-Notebook ausführen:
🦥 Unsloth Studio-Anleitung
Gemma 4 kann jetzt ausgeführt und feinabgestimmt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal auf MacOS, Windows, Linux und:
Gemma 4 funktioniert jetzt in Unsloth Studio!
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilend Tool-Aufrufe + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameterabstimmung (Temp, Top-P usw.)
Schnelle CPU- + GPU-Inferenz über llama.cpp
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Gemma 4 suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.
Dann gehen Sie zum Studio Chat Tab und suchen Sie in der Suchleiste nach Gemma 4 und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.
Gemma 4 ausführen
Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chatvorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserem Unsloth Studio Inferenzleitfaden.

🦙 Llama.cpp-Anleitung
Für diese Anleitung verwenden wir Dynamic 4-Bit für 26B-A4B und 31B sowie 8-Bit für E2B und E4B. Siehe: Gemma 4 GGUF-Sammlung
Für diese Tutorials verwenden wir llama.cpp für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU haben.
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch die folgenden Build-Anweisungen befolgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie die folgenden Befehle je nach Modell befolgen. UD-Q4_K_XL ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Schritt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einem bestimmten Speicherort zu speichern. Es ist nicht nötig, die Kontextlänge festzulegen, da llama.cpp automatisch die exakt erforderliche Menge verwendet.
26B-A4B:
31B:
E4B:
E2B:
Laden Sie das Modell über (nach der Installation von pip install huggingface_hub hf_transfer ). Sie können UD-Q4_K_XL oder andere quantisierte Versionen wie Q8_0 wählen. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führen Sie das Modell im Konversationsmodus aus (mit Vision mmproj-F16):
MLX Dynamic Quants
Wir haben auch dynamische 4-Bit- und 8-Bit-Quants als ersten Versuch hochgeladen! Sie können sie in Unsloth Studio ausführen.
Zum Ausprobieren verwenden Sie:
Gemma 4 Best Practices
Prompt-Beispiele
Einfacher Schlussfolgerungs-Prompt
OCR-/Dokument-Prompt
Für OCR verwenden Sie ein hohes visuelles Token-Budget wie 560 oder 1120.
Multimodaler Vergleichs-Prompt
Audio-ASR-Prompt
Audio-Übersetzungs-Prompt
Multimodale Einstellungen
Für beste Ergebnisse bei multimodalen Prompts platzieren Sie multimodale Inhalte zuerst:
Platzieren Sie Bild und/oder Audio vor Text.
Bei Video geben Sie zuerst eine Folge von Frames an, dann die Anweisung.
Variable Bildauflösung
Gemma 4 unterstützt mehrere visuelle Token-Budgets:
701402805601120
Verwenden Sie sie so:
70 / 140: Klassifizierung, Bildbeschreibung, schnelles Videoverständnis
280 / 560: allgemeiner multimodaler Chat, Diagramme, Bildschirme, UI-Schlussfolgerungen
1120: OCR, Dokumentenanalyse, Handschrift, kleiner Text
Audio- und Videolimits
Audio ist verfügbar auf E2B und E4B nur.
Audio unterstützt maximal 30 Sekunden.
Video unterstützt maximal 60 Sekunden unter der Annahme von 1 Frame pro Sekunde Verarbeitung.
Audio-Prompt-Vorlagen
ASR-Prompt
Sprachübersetzungs-Prompt
Ressourcen und Links
Zuletzt aktualisiert
War das hilfreich?

