Gemma 4 - So führst du es lokal aus

Führe Googles neue Gemma-4-Modelle lokal aus, einschließlich E2B, E4B, 26B A4B und 31B.

Gemma 4 ist die neue Familie offener Modelle von Google DeepMind, darunter E2B, E4B, 26B-A4B, und 31B. Diese multimodalen Modelle mit hybridem Denken unterstützen über 140 Sprachen, bis zu 256K Kontext, und sind sowohl als Dense- als auch als MoE-Varianten verfügbar. E2B und E4B unterstützen außerdem Bild und Audio. Unter der Apache-2.0-Lizenz veröffentlicht, kann Gemma 4 lokal auf Ihrem Gerät ausgeführt und in Unsloth Studio.

circle-check

Gemma-4-E2B und E4B läuft auf 5 GB RAM (4-Bit) oder 15 GB (volle 16-Bit-Präzision). Gemma-4-26B-A4B läuft auf 18 GB (4-Bit) oder 28 GB (8-Bit). Gemma-4-31B benötigt 20 GB RAM (4-Bit) oder 34 GB (8-Bit). Siehe: Unsloth Gemma 4 GGUFs

Gemma 4 ausführenGemma 4 feinabstimmen

Nutzungsleitfaden

Gemma 4 zeichnet sich bei Schlussfolgerungen, Programmierung, Werkzeugnutzung, Aufgaben mit langem Kontext, agentenbasierten Workflows und multimodalen Aufgaben aus. Die kleineren Varianten E2B und E4B sind für Telefone und Laptops konzipiert.

Gemma 4-Variante
Details
Am besten geeignet für

E2B

Dense + PLE (128K Kontext) Unterstützt: Text, Bild, Audio

Für Inferenz auf dem Smartphone / am Edge, ASR, Sprachübersetzung

E4B

Dense + PLE (128K Kontext) Unterstützt: Text, Bild, Audio

Kleines Modell für Laptops und schnelle lokale multimodale Nutzung

26B-A4B

MoE (256K Kontext) Unterstützt: Text, Bild

Bester Kompromiss aus Geschwindigkeit und Qualität für die Nutzung am Computer

31B

Dense (256K Kontext) Unterstützt: Text, Bild

Beste Leistung bei langsamerer Inferenz

Soll ich 26B-A4B oder 31B wählen?

  • 26B-A4B - balanciert Geschwindigkeit und Genauigkeit. Sein MoE-Design macht es schneller als 31B, mit 4B aktiven Parametern. Wählen Sie es, wenn der RAM begrenzt ist und Sie bereit sind, etwas Qualität für Geschwindigkeit zu opfern.

  • 31B - derzeit das stärkste Gemma-4-Modell. Wählen Sie es für maximale Qualität, wenn Sie genügend Speicher haben und etwas langsamere Geschwindigkeiten akzeptieren können.

Gemma 4 Benchmarks

Gemma 4
MMLU Pro
AIME 2026 (ohne Tools)
LiveCodeBench v6
MMMU Pro

31B

85.2%

89.2%

80.0%

76.9%

26B A4B

82.6%

88.3%

77.1%

73.8%

E4B

69.4%

42.5%

52.0%

52.6%

E2B

60.0%

37.5%

44.0%

44.2%

Hardwareanforderungen

Tabelle: Empfohlene Hardwareanforderungen für Gemma 4 Inference GGUF (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher). Sie können Gemma 4 auf MacOS, NVIDIA RTX-GPUs usw. verwenden.

Gemma 4-Variante
4-Bit
8-Bit
BF16 / FP16

E2B

4 GB

5–8 GB

10 GB

E4B

5,5–6 GB

9–12 GB

16 GB

26B A4B

16–18 GB

28–30 GB

52 GB

31B

17–20 GB

34–38 GB

62 GB

circle-info

Als Faustregel sollte Ihr insgesamt verfügbarer Speicher die Größe des quantisierten Modells, das Sie herunterladen, mindestens übersteigen. Ist das nicht der Fall, kann llama.cpp weiterhin mit teilweisem RAM-/Datenträger-Entladen ausgeführt werden, die Generierung wird jedoch langsamer. Je nach verwendetem Kontextfenster benötigen Sie außerdem mehr Rechenleistung.

Empfohlene Einstellungen

Es wird empfohlen, die Standardparameter von Google für Gemma 4 zu verwenden:

  • temperature = 1.0

  • top_p = 0.95

  • top_k = 64

Empfohlene praktische Standardwerte für lokale Inferenz:

  • Beginnen Sie mit 32K Kontext für Reaktionsfähigkeit, dann erhöhen Sie

  • Behalten Sie Wiederholungs-/Präsenzstrafe deaktiviert oder auf 1.0, sofern Sie keine Schleifen beobachten.

  • Das Ende-der-Satz-Token ist <turn|>

circle-info

Der maximale Kontext von Gemma 4 ist 128K für E2B / E4B und 256K für 26B A4B / 31B.

Denkmodus

Im Vergleich zu älteren Gemma-Chatvorlagen verwendet Gemma 4 die standardmäßigen system, assistant, und user Rollen und fügt eine explizite Denksteuerung hinzu.

Wie man Denken aktiviert:

Fügen Sie das Token <|think|> an den Anfang des System-Prompts.

Denken aktiviert

Denken deaktiviert

Ausgabeverhalten:

Wenn Denken aktiviert ist, gibt das Modell vor der endgültigen Antwort seinen internen Denkkanal aus.

Wenn Denken deaktiviert ist, können die größeren Modelle dennoch einen leeren Denkblock vor der endgültigen Antwort ausgeben.

Zum Beispiel bei "Was ist die Hauptstadt von Frankreich?":

dann gibt es Folgendes aus:

Regel für Mehrfachdialoge:

Für Gespräche mit mehreren Runden nur die letzte sichtbare Antwort im Chatverlauf behalten. Tun Sie nicht frühere Denkblöcke in die nächste Runde zurückspeisen.

Gemma-4-Tutorials ausführen

Da Gemma 4 GGUFs in mehreren Größen erhältlich sind, ist der empfohlene Startpunkt für die kleinen Modelle 8-Bit und für die größeren Modelle Dynamisches 4-Bit. Gemma 4 GGUFsarrow-up-right:

🦥 Unsloth Studio-Anleitung🦙 Llama.cpp-Anleitung

Gemma 4 kostenlos über unser Unsloth-Studio-Google-Colab-Notebook ausführen:

🦥 Unsloth Studio-Anleitung

Gemma 4 kann jetzt ausgeführt und feinabgestimmt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal auf MacOS, Windows, Linux und:

circle-check
1

Unsloth installieren

In Ihrem Terminal ausführen:

MacOS, Linux, WSL:

Windows PowerShell:

2

Unsloth starten

MacOS, Linux, WSL und Windows:

Dann öffnen Sie http://localhost:8888 in Ihrem Browser.

3

Gemma 4 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Dann gehen Sie zum Studio Chat Tab und suchen Sie in der Suchleiste nach Gemma 4 und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.

4

Gemma 4 ausführen

Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chatvorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserem Unsloth Studio Inferenzleitfaden.

🦙 Llama.cpp-Anleitung

Für diese Anleitung verwenden wir Dynamic 4-Bit für 26B-A4B und 31B sowie 8-Bit für E2B und E4B. Siehe: Gemma 4 GGUF-Sammlungarrow-up-right

Für diese Tutorials verwenden wir llama.cpparrow-up-right für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU haben.

1

Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch die folgenden Build-Anweisungen befolgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie die folgenden Befehle je nach Modell befolgen. UD-Q4_K_XL ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Schritt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, llama.cpp an einem bestimmten Speicherort zu speichern. Es ist nicht nötig, die Kontextlänge festzulegen, da llama.cpp automatisch die exakt erforderliche Menge verwendet.

26B-A4B:

31B:

E4B:

E2B:

3

Laden Sie das Modell über (nach der Installation von pip install huggingface_hub hf_transfer ). Sie können UD-Q4_K_XL oder andere quantisierte Versionen wie Q8_0 wählen. Wenn Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führen Sie das Modell im Konversationsmodus aus (mit Vision mmproj-F16):

MLX Dynamic Quants

Wir haben auch dynamische 4-Bit- und 8-Bit-Quants als ersten Versuch hochgeladen! Sie können sie in Unsloth Studio ausführen.

Zum Ausprobieren verwenden Sie:

Gemma 4 Best Practices

Prompt-Beispiele

Einfacher Schlussfolgerungs-Prompt

OCR-/Dokument-Prompt

Für OCR verwenden Sie ein hohes visuelles Token-Budget wie 560 oder 1120.

Multimodaler Vergleichs-Prompt

Audio-ASR-Prompt

Audio-Übersetzungs-Prompt

Multimodale Einstellungen

Für beste Ergebnisse bei multimodalen Prompts platzieren Sie multimodale Inhalte zuerst:

  • Platzieren Sie Bild und/oder Audio vor Text.

  • Bei Video geben Sie zuerst eine Folge von Frames an, dann die Anweisung.

Variable Bildauflösung

Gemma 4 unterstützt mehrere visuelle Token-Budgets:

  • 70

  • 140

  • 280

  • 560

  • 1120

Verwenden Sie sie so:

  • 70 / 140: Klassifizierung, Bildbeschreibung, schnelles Videoverständnis

  • 280 / 560: allgemeiner multimodaler Chat, Diagramme, Bildschirme, UI-Schlussfolgerungen

  • 1120: OCR, Dokumentenanalyse, Handschrift, kleiner Text

Audio- und Videolimits

  • Audio ist verfügbar auf E2B und E4B nur.

  • Audio unterstützt maximal 30 Sekunden.

  • Video unterstützt maximal 60 Sekunden unter der Annahme von 1 Frame pro Sekunde Verarbeitung.

Audio-Prompt-Vorlagen

ASR-Prompt

Sprachübersetzungs-Prompt

Zuletzt aktualisiert

War das hilfreich?