# Gemma 4 - Wie man lokal ausführt

Gemma 4 ist die neue Familie offener Modelle von Google DeepMind, darunter **E2B**, **E4B**, **26B-A4B**, und **31B.** Die multimodalen Hybrid-Denken-Modelle unterstützen über 140 Sprachen, bis zu **256K-Kontext**und es gibt Dense- und MoE-Varianten. Gemma 4 ist unter Apache-2.0 lizenziert und kann auf deinem lokalen Gerät ausgeführt werden.

{% columns %}
{% column %} <a href="/pages/774ab7ebd11d30a8067d492668e9dd61a8b209fb#run-gemma-4-tutorials" class="button primary">Gemma 4 ausführen</a><a href="/pages/6b0583a8449166f2d11877ed16e0b6c150d61586" class="button secondary">Gemma 4 feinabstimmen</a>

**Gemma-4-E2B** und **E4B** unterstützt Bild und Audio. Läuft auf **5 GB RAM** (4-Bit) oder 15 GB (volle 16-Bit). Siehe unsere [Gemma 4 GGUFs](https://huggingface.co/collections/unsloth/gemma-4).

**Gemma-4-26B-A4B** läuft auf **18 GB** (4-Bit) oder 28 GB (8-Bit). **Gemma-4-31B** benötigt **20 GB RAM** (4-Bit) oder 34 GB (8-Bit).
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/d7c42ebe749f1a6355e750ad6d546c1c25be81de" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**20. Apr.:** Wir haben [Gemma 4 GGUF-Benchmarks](#unsloth-gguf-benchmarks) durchgeführt, um Ihnen bei der Auswahl des besten Quants zu helfen.

**Update vom 11. Apr.:** Gemma 4 wurde jetzt mit Googles aktualisierter Chat-Vorlage + llama.cpp-Fixes aktualisiert.\
**NICHT** die CUDA-13.2-Runtime für irgendein GGUF verwenden, da dies zu schlechten Ausgaben führt.

Du kannst jetzt GGUFs ausführen und Gemma 4 feinabstimmen in [Unsloth Studio](#unsloth-studio-guide)✨
{% endhint %}

### Nutzungsleitfaden

Gemma 4 ist hervorragend in Reasoning, Coding, Tool-Nutzung, Langkontext- und agentischen Workflows sowie multimodalen Aufgaben. Die kleineren Varianten E2B und E4B sind für Telefone und Laptops gedacht, während die größeren Modelle auf Systeme mit mittlerer bis hoher CPU-/VRAM-Ausstattung zielen, etwa PCs mit NVIDIA-RTX-GPUs.

| Gemma 4-Variante | Details                                                             | Am besten geeignet für                                                        |
| ---------------- | ------------------------------------------------------------------- | ----------------------------------------------------------------------------- |
| **E2B**          | <p>Dense + PLE (128K Kontext)<br>Unterstützt: Text, Bild, Audio</p> | Für Inferenz auf Telefonen/Edge-Geräten, ASR, Sprachübersetzung               |
| **E4B**          | <p>Dense + PLE (128K Kontext)<br>Unterstützt: Text, Bild, Audio</p> | Kleines Modell für Laptops und schnelle lokale multimodale Nutzung            |
| **26B-A4B**      | <p>MoE (256K Kontext)<br>Unterstützt: Text, Bild</p>                | Bestes Verhältnis von Geschwindigkeit zu Qualität für die Nutzung am Computer |
| **31B**          | <p>Dense (256K Kontext)<br>Unterstützt: Text, Bild</p>              | Stärkste Leistung bei langsamerer Inferenz                                    |

**Siehe Gemma 4:** [**Leistungsbenchmarks**](#official-gemma-benchmarks) **und** [**GGUF-Benchmarks**](#unsloth-gguf-benchmarks)**.**

**Soll ich 26B-A4B oder 31B wählen?**

* **26B-A4B** - bietet ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit. Das MoE-Design macht es schneller als 31B, mit 4B aktiven Parametern. Wähle es, wenn der RAM begrenzt ist und du bereit bist, etwas Qualität gegen Geschwindigkeit einzutauschen.
* **31B** - derzeit das stärkste Gemma-4-Modell. Wähle es für maximale Qualität, wenn du genug Speicher hast und etwas langsamere Geschwindigkeiten akzeptieren kannst.

### Hardware-Anforderungen

**Tabelle: Empfohlene Hardware-Anforderungen für Gemma 4 Inference GGUF** (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher). Du kannst Gemma 4 auf MacOS, NVIDIA-RTX-GPUs usw. verwenden.

| Gemma-4-Variante |    4-Bit |    8-Bit | BF16 / FP16 |
| ---------------- | -------: | -------: | ----------: |
| **E2B**          |     4 GB |   5–8 GB |       10 GB |
| **E4B**          | 5,5–6 GB |  9–12 GB |       16 GB |
| **26B A4B**      | 16–18 GB | 28–30 GB |       52 GB |
| **31B**          | 17–20 GB | 34–38 GB |       62 GB |

{% hint style="info" %}
Als Faustregel sollte dein insgesamt verfügbarer Speicher mindestens die Größe des quantisierten Modells übersteigen, das du herunterlädst. Falls nicht, kann llama.cpp weiterhin mit partieller RAM-/Festplatten-Auslagerung laufen, aber die Generierung wird langsamer sein. Außerdem benötigst du je nach verwendetem Kontextfenster mehr Rechenleistung.
{% endhint %}

### Empfohlene Einstellungen

Es wird empfohlen, Googles Standardparameter für Gemma 4 zu verwenden:

* `temperature = 1.0`
* `top_p = 0.95`
* `top_k = 64`

Empfohlene praktische Standardwerte für lokale Inferenz:

* Beginne mit **32K Kontext** für Reaktionsfähigkeit, dann erhöhe
* Behalte **Wiederholungs-/Präsenzstrafe** deaktiviert oder auf 1.0, außer du siehst Schleifen.
* Das End-of-Sentence-Token ist `<turn|>`

{% hint style="info" %}
Der maximale Kontext von Gemma 4 ist **128K** für **E2B / E4B** und **256K** für **26B A4B / 31B**.
{% endhint %}

#### Thinking Mode

Im Vergleich zu älteren Gemma-Chat-Vorlagen verwendet Gemma 4 die standardmäßigen **`system`**, **`assistant`**, und **`user`** Rollen und fügt eine explizite Denksteuerung hinzu.

**So aktivierst du Thinking:**

Füge das Token **`<|think|>`** am **Anfang des System-Prompts**.

{% columns %}
{% column %}
**Thinking aktiviert**

```
<|think|>
Du bist ein sorgfältiger Coding-Assistent. Erkläre deine Antwort klar.
```

{% endcolumn %}

{% column %}
**Thinking deaktiviert**

```
Du bist ein sorgfältiger Coding-Assistent. Erkläre deine Antwort klar.
```

{% endcolumn %}
{% endcolumns %}

**Ausgabeverhalten:**

{% columns %}
{% column %}
Wenn Thinking aktiviert ist, gibt das Modell vor der endgültigen Antwort seinen internen Denkkanal aus.

```
<|channel>thought
[internes Denken]
<channel|>
[endgültige Antwort]
```

{% endcolumn %}

{% column %}
Wenn Thinking deaktiviert ist, können die größeren Modelle dennoch einen **leeren Denkblock** vor der endgültigen Antwort ausgeben.

```
<|channel>thought
<channel|>
[endgültige Antwort]
```

{% endcolumn %}
{% endcolumns %}

**Zum Beispiel mit "**&#x57;ie lautet die Hauptstadt von Frankreich?":

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nWie lautet die Hauptstadt von Frankreich?<turn|>\n<|turn>model\n
```

{% endcode %}

**dann gibt es aus mit:**

{% code overflow="wrap" %}

```
<|channel>thought\nDer Nutzer fragt nach der Hauptstadt von Frankreich.\nDie Hauptstadt von Frankreich ist Paris.<channel|>Die Hauptstadt von Frankreich ist Paris.<turn|>
```

{% endcode %}

**Regel für Multi-Turn-Chat:**

Bei Gesprächen mit mehreren Turns, **nur die letzte sichtbare Antwort im Chatverlauf behalten**. **Nicht** vorherige Denkblöcke in den nächsten Turn zurückführen.

{% code overflow="wrap" %}

```
<bos><|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**So deaktivierst du Thinking:**

Hinweis `llama-cli` funktioniert möglicherweise nicht zuverlässig, daher verwende `llama-server` zum Deaktivieren des Reasonings:

{% hint style="warning" %}
Um [Denken/Reasoning deaktivieren](#how-to-enable-or-disable-reasoning-and-thinking), verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'`

Wenn Sie auf **Windows** Powershell sind, verwenden Sie: `--chat-template-kwargs "{\"enable_thinking\":false}"`

Verwenden Sie 'true' und 'false' synonym.
{% endhint %}

## Gemma 4 Tutorials ausführen

Da Gemma-4-GGUFs in mehreren Größen verfügbar sind, ist der empfohlene Startpunkt für die kleinen Modelle 8-Bit und für die größeren Modelle **Dynamisches 4-Bit**. [Gemma 4 GGUFs](https://huggingface.co/collections/unsloth/gemma-4) oder [MLX](#mlx-dynamic-quants):

| [gemma-4-E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [gemma-4-E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [gemma-4-26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [gemma-4-31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| ----------------------------------------------------------------- | ----------------------------------------------------------------- | ------------------------------------------------------------------------- | ----------------------------------------------------------------- |

<a href="/pages/774ab7ebd11d30a8067d492668e9dd61a8b209fb#unsloth-studio-guide" class="button primary">🦥 Unsloth Studio-Leitfaden</a><a href="/pages/774ab7ebd11d30a8067d492668e9dd61a8b209fb#llama.cpp-guide" class="button primary">🦙 Llama.cpp-Anleitung</a>

{% columns %}
{% column %}
**Du kannst Gemma 4 kostenlos mit einer UI in unserem** [**Unsloth Studio**](/docs/de/neu/studio.md)✨ **Notebook**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Unsloth Studio-Leitfaden

Gemma 4 kann jetzt in [Unsloth Studio](/docs/de/neu/studio.md), unserer neuen Open-Source-Web-UI für lokale KI. Unsloth Studio ermöglicht es Ihnen, Modelle lokal auszuführen auf **MacOS, Windows**, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Aufrufen](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-P usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/25b89cbb431e29420702ee3c1e8f64e47233d588" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie in Ihrem Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

Dann öffnen Sie `http://127.0.0.1:8888` in Ihrem Browser.
{% endstep %}

{% step %}

#### Gemma 4 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Dann gehen Sie zum [Studio Chat](/docs/de/neu/studio/chat.md) Registerkarte verwenden und in der Suchleiste nach Gemma 4 suchen sowie das gewünschte Modell und die gewünschte Quantisierung herunterladen.

<div data-with-frame="true"><figure><img src="/files/59e4ba0397de8461eae6bdceb892085d889565f6" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Gemma 4 ausführen

Die Inferenzparameter sollten in Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Für weitere Informationen können Sie unseren [Unsloth Studio Inferenz-Leitfaden](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/25b89cbb431e29420702ee3c1e8f64e47233d588" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Anleitung

Für diese Anleitung verwenden wir Dynamic 4-Bit für 26B-A4B und 31B sowie 8-Bit für E2B und E4B. Siehe: [Gemma 4 GGUF-Sammlung](https://huggingface.co/collections/unsloth/gemma-4)

Für diese Tutorials verwenden wir [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) für schnelle lokale Inferenz, besonders wenn du eine CPU hast.

{% stepper %}
{% step %}
Die neueste Version erhalten `llama.cpp` **auf** [**GitHub hier**](https://github.com/ggml-org/llama.cpp). Sie können auch den Build-Anweisungen unten folgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Wenn Sie `llama.cpp` direkt zum Laden von Modellen, kannst du den untenstehenden Befehlen folgen, je nach Modell. `UD-Q4_K_XL` ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Schritt 3). Dies ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="folder"` um `llama.cpp` um an einem bestimmten Speicherort zu speichern. Es ist nicht nötig, die Kontextlänge festzulegen, da llama.cpp automatisch die exakt benötigte Menge verwendet.

**26B-A4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**31B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**E4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**E2B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

{% endstep %}

{% step %}
Lade das Modell herunter über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Du kannst `UD-Q4_K_XL` oder andere quantisierte Versionen wie `Q8_0` wählen. Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \\
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \\
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
```

{% endstep %}

{% step %}
Dann führe das Modell im Gesprächsmodus aus (mit Vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

### Llama-Server-Bereitstellung

Um Gemma-4 auf llama-server bereitzustellen, verwende:

```bash
./llama.cpp/llama-server \
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \\
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \\
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64 \\
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \\
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% hint style="warning" %}
Um [Denken/Reasoning deaktivieren](#how-to-enable-or-disable-reasoning-and-thinking), verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'`

Wenn Sie auf **Windows** Powershell sind, verwenden Sie: `--chat-template-kwargs "{\"enable_thinking\":false}"`

Verwenden Sie 'true' und 'false' synonym.
{% endhint %}
{% endstep %}
{% endstepper %}

### MLX Dynamic Quants

Wir haben außerdem dynamische 4-Bit- und 8-Bit-Quants als ersten Versuch für MacOS-Geräte hochgeladen!

{% hint style="success" %}
Jetzt mit **Vision** Unterstützung!
{% endhint %}

| Gemma 4 | 4-Bit MLX                                                             | 8-Bit MLX                                                          |
| ------- | --------------------------------------------------------------------- | ------------------------------------------------------------------ |
| 31B     | [Link](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [Link](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [Link](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [Link](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [Link](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [Link](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [Link](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [Link](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

Zum Ausprobieren verwenden Sie:

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/scripts/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_vlm.chat --model unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit
```

{% endcode %}

## Gemma 4 Best Practices

### Prompt-Beispiele

#### Einfacher Reasoning-Prompt

```
System:
<|think|>
Du bist ein präziser Reasoning-Assistent.

Nutzer:
Ein Zug fährt um 8:15 Uhr morgens ab und kommt um 11:47 Uhr an. Wie lange dauerte die Fahrt?
```

#### OCR / Dokument-Prompt

Für OCR verwende ein **hohes visuelles Token-Budget** wie **560** oder **1120**.

```
[Bild zuerst]
Extrahiere den gesamten Text aus diesem Beleg. Gib Positionen, Gesamtbetrag, Händler und Datum als JSON zurück.
```

#### Multimodaler Vergleichs-Prompt

```
[Bild 1]
[Bild 2]
Vergleiche diese beiden Screenshots und sag mir, welcher wahrscheinlicher einen neuen Nutzer verwirren würde.
```

#### Audio-ASR-Prompt

```
[Audio zuerst]
Transkribiere den folgenden Sprachabschnitt auf Englisch in englischen Text.

Befolge diese spezifischen Anweisungen zur Formatierung der Antwort:
* Gib nur die Transkription aus, ohne Zeilenumbrüche.
* Schreibe bei Zahlen die Ziffern, d. h. schreibe 1.7 und nicht eins Komma sieben, und schreibe 3 statt drei.
```

#### Audio-Übersetzungs-Prompt

```
[Audio zuerst]
Transkribiere den folgenden Sprachabschnitt auf Spanisch und übersetze ihn dann ins Englische.
Bei der Formatierung der Antwort gib zuerst die Transkription auf Spanisch aus, dann eine neue Zeile, dann die Zeichenkette 'English: ', dann die Übersetzung ins Englische.
```

### Multimodale Einstellungen

Für beste Ergebnisse mit multimodalen Prompts setze multimodale Inhalte zuerst:

* Setze **Bild und/oder Audio vor Text**.
* Für Video übergib zuerst eine Sequenz von Frames, dann die Anweisung.

#### Variable Bildauflösung

Gemma 4 unterstützt mehrere visuelle Token-Budgets:

* `70`
* `140`
* `280`
* `560`
* `1120`

Verwende sie so:

* **70 / 140**: Klassifikation, Bildunterschrift, schnelles Video-Verständnis
* **280 / 560**: allgemeiner multimodaler Chat, Diagramme, Bildschirme, UI-Reasoning
* **1120**: OCR, Dokumenten-Parsing, Handschrift, kleiner Text

#### Audio- und Videolimits

* **Audio** ist verfügbar nur auf **E2B** und **E4B** .
* Audio unterstützt maximal **30 Sekunden**.
* Video unterstützt maximal **60 Sekunden** angenommen **1 Frame pro Sekunde** Verarbeitung.

#### Audio-Prompt-Vorlagen

**ASR-Prompt**

```
Transkribiere den folgenden Sprachabschnitt in {LANGUAGE} in {LANGUAGE}-Text.

Befolge diese spezifischen Anweisungen zur Formatierung der Antwort:
* Gib nur die Transkription aus, ohne Zeilenumbrüche.
* Schreibe bei Zahlen die Ziffern, d. h. schreibe 1.7 und nicht eins Komma sieben, und schreibe 3 statt drei.
```

**Sprachübersetzungs-Prompt**

```
Transkribiere den folgenden Sprachabschnitt in {SOURCE_LANGUAGE} und übersetze ihn dann in {TARGET_LANGUAGE}.
Bei der Formatierung der Antwort gib zuerst die Transkription in {SOURCE_LANGUAGE} aus, dann eine neue Zeile, dann die Zeichenkette '{TARGET_LANGUAGE}: ', dann die Übersetzung in {TARGET_LANGUAGE}.
```

## 📊 Benchmarks

### Unsloth GGUF-Benchmarks

Wir haben Mean-KL-Divergenz-Benchmarks für Gemma-4-GGUFs über verschiedene Anbieter hinweg durchgeführt, um dir bei der Auswahl der besten Quantisierung zu helfen (niedriger ist besser).

* KL-Divergenz bringt alle Unsloth-GGUFs an die SOTA-Pareto-Frontier
* KLD zeigt, wie gut ein quantisiertes Modell der ursprünglichen BF16-Ausgabeverteilung entspricht, was auf die erhaltene Genauigkeit hinweist.

<div data-with-frame="true"><figure><img src="/files/77a35e40de621cafc51c11dbb1812999ef4ffadf" alt=""><figcaption><p>26B A4B - KLD-Benchmarks (niedriger ist besser)</p></figcaption></figure></div>

### Offizielle Gemma-Benchmarks

| Gemma 4     | MMLU Pro | AIME 2026 (ohne Tools) | LiveCodeBench v6 | MMMU Pro |
| ----------- | -------: | ---------------------: | ---------------: | -------: |
| **31B**     |    85.2% |                  89.2% |            80.0% |    76.9% |
| **26B A4B** |    82.6% |                  88.3% |            77.1% |    73.8% |
| **E4B**     |    69.4% |                  42.5% |            52.0% |    52.6% |
| **E2B**     |    60.0% |                  37.5% |            44.0% |    44.2% |

<div data-with-frame="true"><figure><img src="/files/b6dee250a47ad24ed4d941817e6871af979eaa1b" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
