# Gemma 4 - So führst du es lokal aus

Gemma 4 ist Googles DeepMinds neue Familie offener Modelle, darunter **E2B**, **E4B**, **26B-A4B**, und **31B.** Die multimodalen Hybrid-Thinking-Modelle unterstützen über 140 Sprachen, bis zu **256K Kontext**, und es gibt dichte und MoE-Varianten. Gemma 4 ist unter Apache-2.0 lizenziert und kann auf Ihrem lokalen Gerät ausgeführt werden.

{% columns %}
{% column %} <a href="#run-gemma-4-tutorials" class="button primary">Gemma 4 ausführen</a><a href="gemma-4/train" class="button secondary">Gemma 4 feinabstimmen</a>

**Gemma-4-E2B** und **E4B** unterstützen Bild und Audio. Ausführung auf **5 GB RAM** (4-Bit) oder 15 GB (vollständig 16-Bit). Siehe unsere [Gemma 4 GGUFs](https://huggingface.co/collections/unsloth/gemma-4).

**Gemma-4-26B-A4B** läuft auf **18 GB** (4-Bit) oder 28 GB (8-Bit). **Gemma-4-31B** benötigt **20 GB RAM** (4-Bit) oder 34 GB (8-Bit).
{% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FstfdTMsoBMmsbQsgQ1Ma%2Flandscape%20clip%20gemma.gif?alt=media&#x26;token=eec5f2f7-b97a-4c1c-ad01-5a041c3e4013" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% hint style="success" %}
**Update vom 11. Apr.:** Gemma 4 ist jetzt mit Googles aktualisierter Chat-Vorlage + llama.cpp-Fixes aktualisiert.\
**NICHT** die CUDA-13.2-Runtime für irgendein GGUF verwenden, da dies zu schlechten Ausgaben führt.

Sie können jetzt GGUFs ausführen und Gemma 4 feinabstimmen in [Unsloth Studio](#unsloth-studio-guide)✨
{% endhint %}

### Verwendungshandbuch

Gemma 4 ist hervorragend für Schlussfolgerungen, Coding, Tool-Nutzung, Langkontext- und agentische Workflows sowie multimodale Aufgaben geeignet. Die kleineren Varianten E2B und E4B sind für Telefone und Laptops gedacht, während die größeren Modelle auf Systeme mit mittlerer bis hoher CPU-/VRAM-Kapazität abzielen, wie PCs mit NVIDIA-RTX-GPUs.

| Gemma 4 Variante | Details                                                             | Beste Eignung                                                                  |
| ---------------- | ------------------------------------------------------------------- | ------------------------------------------------------------------------------ |
| **E2B**          | <p>Dicht + PLE (128K Kontext)<br>Unterstützt: Text, Bild, Audio</p> | Für Telefon-/Edge-Inferenz, ASR, Sprachübersetzung                             |
| **E4B**          | <p>Dicht + PLE (128K Kontext)<br>Unterstützt: Text, Bild, Audio</p> | Kleines Modell für Laptops und schnelle lokale multimodale Nutzung             |
| **26B-A4B**      | <p>MoE (256K Kontext)<br>Unterstützt: Text, Bild</p>                | Bestes Verhältnis von Geschwindigkeit und Qualität für die Nutzung am Computer |
| **31B**          | <p>Dicht (256K Kontext)<br>Unterstützt: Text, Bild</p>              | Stärkste Leistung bei langsamerer Inferenz                                     |

**Soll ich 26B-A4B oder 31B wählen?**

* **26B-A4B** - balanciert Geschwindigkeit und Genauigkeit. Sein MoE-Design macht es schneller als 31B, mit 4B aktiven Parametern. Wählen Sie es, wenn der RAM begrenzt ist und Sie bereit sind, etwas Qualität gegen Geschwindigkeit einzutauschen.
* **31B** - derzeit das stärkste Gemma-4-Modell. Wählen Sie es für maximale Qualität, wenn Sie genug Speicher haben und etwas langsamere Geschwindigkeiten akzeptieren können.

#### Gemma 4 Benchmarks

| Gemma 4     | MMLU Pro | AIME 2026 (keine Tools) | LiveCodeBench v6 | MMMU Pro |
| ----------- | -------: | ----------------------: | ---------------: | -------: |
| **31B**     |    85.2% |                   89.2% |            80.0% |    76.9% |
| **26B A4B** |    82.6% |                   88.3% |            77.1% |    73.8% |
| **E4B**     |    69.4% |                   42.5% |            52.0% |    52.6% |
| **E2B**     |    60.0% |                   37.5% |            44.0% |    44.2% |

### Hardwareanforderungen

**Tabelle: Empfohlene Hardwareanforderungen für Gemma 4 Inference GGUF** (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher). Sie können Gemma 4 auf macOS, NVIDIA-RTX-GPUs usw. verwenden.

| Gemma-4-Variante |    4-Bit |    8-Bit | BF16 / FP16 |
| ---------------- | -------: | -------: | ----------: |
| **E2B**          |     4 GB |   5–8 GB |       10 GB |
| **E4B**          | 5,5–6 GB |  9–12 GB |       16 GB |
| **26B A4B**      | 16–18 GB | 28–30 GB |       52 GB |
| **31B**          | 17–20 GB | 34–38 GB |       62 GB |

{% hint style="info" %}
Als Faustregel sollte Ihr insgesamt verfügbarer Speicher zumindest die Größe des quantisierten Modells übersteigen, das Sie herunterladen. Falls nicht, kann llama.cpp weiterhin mit teilweisem RAM-/Disk-Offload ausgeführt werden, aber die Generierung wird langsamer sein. Außerdem benötigen Sie je nach verwendetem Kontextfenster mehr Rechenleistung.
{% endhint %}

### Empfohlene Einstellungen

Es wird empfohlen, die Standardparameter von Google für Gemma 4 zu verwenden:

* `temperature = 1.0`
* `top_p = 0.95`
* `top_k = 64`

Empfohlene praktische Standardwerte für die lokale Inferenz:

* Beginnen Sie mit **32K Kontext** für Reaktionsfähigkeit, und erhöhen Sie dann
* Behalten Sie **Wiederholungs-/Präsenzstrafe** deaktiviert oder auf 1.0, sofern Sie keine Schleifen sehen.
* Das End-of-Sentence-Token ist `<turn|>`

{% hint style="info" %}
Der maximale Kontext von Gemma 4 ist **128K** für **E2B / E4B** und **256K** für **26B A4B / 31B**.
{% endhint %}

#### Thinking-Modus

Im Vergleich zu älteren Gemma-Chat-Vorlagen verwendet Gemma 4 die standardmäßigen **`System`**, **`Assistent`**, und **`Benutzer`** Rollen und fügt explizite Steuerung des Denkens hinzu.

**So aktivieren Sie Thinking:**

Fügen Sie das Token **`<|think|>`** am **Anfang des System-Prompts hinzu**.

{% columns %}
{% column %}
**Thinking aktiviert**

```
<|think|>
Sie sind ein sorgfältiger Coding-Assistent. Erklären Sie Ihre Antwort klar.
```

{% endcolumn %}

{% column %}
**Thinking deaktiviert**

```
Sie sind ein sorgfältiger Coding-Assistent. Erklären Sie Ihre Antwort klar.
```

{% endcolumn %}
{% endcolumns %}

**Ausgabeverhalten:**

{% columns %}
{% column %}
Wenn Thinking aktiviert ist, gibt das Modell vor der endgültigen Antwort seinen internen Reasoning-Kanal aus.

```
<|channel>thought
[interne Schlussfolgerung]
<channel|>
[endgültige Antwort]
```

{% endcolumn %}

{% column %}
Wenn Thinking deaktiviert ist, können die größeren Modelle trotzdem einen **leeren Thought-Block** vor der endgültigen Antwort ausgeben.

```
<|channel>thought
<channel|>
[endgültige Antwort]
```

{% endcolumn %}
{% endcolumns %}

**Zum Beispiel mit „**&#x57;ie lautet die Hauptstadt von Frankreich?":

{% code overflow="wrap" %}

```
<bos><|turn>system\n<|think|><turn|>\n<|turn>user\nWie lautet die Hauptstadt von Frankreich?<turn|>\n<|turn>model\n
```

{% endcode %}

**dann gibt es aus mit:**

{% code overflow="wrap" %}

```
<|channel>thought\nDer Benutzer fragt nach der Hauptstadt von Frankreich.\nDie Hauptstadt von Frankreich ist Paris.<channel|>Die Hauptstadt von Frankreich ist Paris.<turn|>
```

{% endcode %}

**Regel für Multi-Turn-Chat:**

Bei mehrstufigen Unterhaltungen **nur die letzte sichtbare Antwort im Chatverlauf behalten**. **nicht** vorherige Thought-Blöcke in den nächsten Turn zurückfüttern.

{% code overflow="wrap" %}

```
<bos><|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n<|turn>user\nWas ist 1+1?<turn|>\n<|turn>model\n2<turn|>\n
```

{% endcode %}

**So deaktivieren Sie Thinking:**

Hinweis `llama-cli` funktioniert möglicherweise nicht zuverlässig, verwenden Sie daher `llama-server` zum Deaktivieren des Reasonings:

{% hint style="warning" %}
Zum [Deaktivieren von Thinking / Reasoning](#how-to-enable-or-disable-reasoning-and-thinking)verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'`

Wenn Sie auf **Windows** PowerShell sind, verwenden Sie: `--chat-template-kwargs "{\"enable_thinking\":false}"`

Verwenden Sie 'true' und 'false' austauschbar.
{% endhint %}

## Gemma-4-Tutorials ausführen

Da Gemma-4-GGUFs in mehreren Größen verfügbar sind, ist der empfohlene Startpunkt für die kleinen Modelle 8-Bit und für die größeren Modelle **dynamisches 4-Bit**. [Gemma 4 GGUFs](https://huggingface.co/collections/unsloth/gemma-4) oder [MLX](#mlx-dynamic-quants):

| [gemma-4-E2B](https://huggingface.co/unsloth/gemma-4-E2B-it-GGUF) | [gemma-4-E4B](https://huggingface.co/unsloth/gemma-4-E4B-it-GGUF) | [gemma-4-26B-A4B](https://huggingface.co/unsloth/gemma-4-26B-A4B-it-GGUF) | [gemma-4-31B](https://huggingface.co/unsloth/gemma-4-31B-it-GGUF) |
| ----------------------------------------------------------------- | ----------------------------------------------------------------- | ------------------------------------------------------------------------- | ----------------------------------------------------------------- |

<a href="#unsloth-studio-guide" class="button primary">🦥 Unsloth Studio-Leitfaden</a><a href="#llama.cpp-guide" class="button primary">🦙 Llama.cpp-Leitfaden</a>

{% columns %}
{% column %}
**Sie können Gemma 4 kostenlos mit einer UI in unserem** [**Unsloth Studio**](https://unsloth.ai/docs/de/neu/studio)✨ **Notebook**
{% endcolumn %}

{% column %}
{% embed url="<https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

### 🦥 Unsloth Studio-Leitfaden

Gemma 4 kann jetzt in [Unsloth Studio](https://unsloth.ai/docs/de/neu/studio)ausgeführt und feinabgestimmt werden, unserer neuen Open-Source-Web-UI für lokale KI. Unsloth Studio ermöglicht es Ihnen, Modelle lokal auf **MacOS, Windows**zu betreiben, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](https://unsloth.ai/docs/de/neu/studio#run-models-locally) und Safetensor-Modelle
* [**Selbstheilendes** Tool-Calling](https://unsloth.ai/docs/de/neu/studio#execute-code--heal-tool-calling) + **Websuche**
* [**Codeausführung**](https://unsloth.ai/docs/de/neu/studio#run-models-locally) (Python, Bash)
* [Automatische Inferenz](https://unsloth.ai/docs/de/neu/studio#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* Schnelle CPU- + GPU-Inferenz via llama.cpp
* [LLMs trainieren](https://unsloth.ai/docs/de/neu/studio#no-code-training) 2x schneller mit 70% weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

Führen Sie in Ihrem Terminal aus:

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL und Windows:**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Gemma 4 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Sie können ihn jederzeit überspringen.

Dann gehen Sie zum [Studio-Chat](https://unsloth.ai/docs/de/neu/studio/chat) Tab und suchen Sie in der Suchleiste nach Gemma 4 und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FpYoNILI8NFMl8QaQlc7V%2FScreenshot%202026-04-02%20at%2010.37.32%E2%80%AFPM.png?alt=media&#x26;token=18d5918e-4f71-4e0e-b8c9-464097389835" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Gemma 4 ausführen

Die Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Für weitere Informationen können Sie unseren [Unsloth Studio Inferenzleitfaden](https://unsloth.ai/docs/de/neu/studio/chat).

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FVrLgXwplAMcvkU4owjPk%2F26b%20gif.gif?alt=media&#x26;token=8a569952-c152-435f-b815-c9f295619587" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Leitfaden

Für diesen Leitfaden werden wir Dynamic 4-Bit für 26B-A4B und 31B sowie 8-Bit für E2B und E4B verwenden. Siehe: [Gemma 4 GGUF-Sammlung](https://huggingface.co/collections/unsloth/gemma-4)

Für diese Tutorials werden wir [llama.cpp](https://llama.cpphttps/github.com/ggml-org/llama.cpp) für schnelle lokale Inferenz verwenden, insbesondere wenn Sie eine CPU haben.

{% stepper %}
{% step %}
Holen Sie sich die neueste `llama.cpp` **auf** [**GitHub hier**](https://github.com/ggml-org/llama.cpp). Sie können auch den Build-Anweisungen unten folgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple Mac / Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Wenn Sie verwenden möchten `llama.cpp` direkt zum Laden von Modellen, können Sie die folgenden Befehle entsprechend jedem Modell befolgen. `UD-Q4_K_XL` ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Schritt 3). Das ist ähnlich wie `ollama run` . Verwenden Sie `export LLAMA_CACHE="Ordner"` um `llama.cpp` zu erzwingen, dass es an einem bestimmten Ort gespeichert wird. Es ist nicht nötig, die Kontextlänge festzulegen, da llama.cpp automatisch die exakt benötigte Menge verwendet.

**26B-A4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-26B-A4B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**31B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-31B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-31B-it-GGUF:UD-Q4_K_XL \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**E4B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E4B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-E4B-it-GGUF:Q8_0 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

**E2B:**

```bash
export LLAMA_CACHE="unsloth/gemma-4-E2B-it-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/gemma-4-E2B-it-GGUF:Q8_0 \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

{% endstep %}

{% step %}
Laden Sie das Modell über (nach der Installation von `pip install huggingface_hub hf_transfer` ). Sie können `UD-Q4_K_XL` oder andere quantisierte Versionen wie `Q8_0` wählen. Wenn Downloads hängen bleiben, siehe: [hugging-face-hub-xet-debugging](https://unsloth.ai/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging "mention")

```bash
hf download unsloth/gemma-4-26B-A4B-it-GGUF \
    --local-dir unsloth/gemma-4-26B-A4B-it-GGUF \
    --include "*mmproj-BF16*" \
    --include "*UD-Q4_K_XL*" # Verwenden Sie "*UD-Q2_K_XL*" für Dynamic 2bit
```

{% endstep %}

{% step %}
Dann führen Sie das Modell im Gesprächsmodus aus (mit Vision `mmproj-F16`):

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64
```

{% endcode %}
{% endstep %}

{% step %}

### Llama-server-Bereitstellung

Um Gemma-4 auf llama-server bereitzustellen, verwenden Sie:

```bash
./llama.cpp/llama-server \
    --model unsloth/gemma-4-26B-A4B-it-GGUF/gemma-4-26B-A4B-it-UD-Q4_K_XL.gguf \
    --mmproj unsloth/gemma-4-26B-A4B-it-GGUF/mmproj-BF16.gguf \
    --temp 1.0 \
    --top-p 0.95 \
    --top-k 64 \
    --alias "unsloth/gemma-4-26B-A4B-it-GGUF" \
    --port 8001 \
    --chat-template-kwargs '{"enable_thinking":true}'
```

{% hint style="warning" %}
Zum [Deaktivieren von Thinking / Reasoning](#how-to-enable-or-disable-reasoning-and-thinking)verwenden Sie `--chat-template-kwargs '{"enable_thinking":false}'`

Wenn Sie auf **Windows** PowerShell sind, verwenden Sie: `--chat-template-kwargs "{\"enable_thinking\":false}"`

Verwenden Sie 'true' und 'false' austauschbar.
{% endhint %}
{% endstep %}
{% endstepper %}

### MLX Dynamic Quants

Wir haben auch dynamische 4-Bit- und 8-Bit-Quants als ersten Versuch für MacOS-Geräte hochgeladen!

| Gemma 4 | 4-Bit MLX                                                             | 8-Bit MLX                                                          |
| ------- | --------------------------------------------------------------------- | ------------------------------------------------------------------ |
| 31B     | [Link](https://huggingface.co/unsloth/gemma-4-31b-it-UD-MLX-4bit)     | [Link](https://huggingface.co/unsloth/gemma-4-31b-it-MLX-8bit)     |
| 26B-A4B | [Link](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-UD-MLX-4bit) | [Link](https://huggingface.co/unsloth/gemma-4-26b-a4b-it-MLX-8bit) |
| E4B     | [Link](https://huggingface.co/unsloth/gemma-4-E4B-it-UD-MLX-4bit)     | [Link](https://huggingface.co/unsloth/gemma-4-E4B-it-MLX-8bit)     |
| E2B     | [Link](https://huggingface.co/unsloth/gemma-4-E2B-it-UD-MLX-4bit)     | [Link](https://huggingface.co/unsloth/gemma-4-E2B-it-MLX-8bit)     |

Um sie auszuprobieren, verwenden Sie:

{% code overflow="wrap" %}

```bash
curl -fsSL https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/install_gemma4_mlx.sh | sh
source ~/.unsloth/unsloth_gemma4_mlx/bin/activate
python -m mlx_lm chat --model unsloth/gemma-4-E4B-it-UD-MLX-4bit --max-tokens 4096
```

{% endcode %}

## Gemma 4 Best Practices

### Beispiel-Prompts

#### Einfacher Reasoning-Prompt

```
System:
<|think|>
Sie sind ein präziser Reasoning-Assistent.

Benutzer:
Ein Zug fährt um 8:15 Uhr ab und kommt um 11:47 Uhr an. Wie lange dauerte die Fahrt?
```

#### OCR / Dokument-Prompt

Für OCR verwenden Sie ein **hohes visuelles Token-Budget** wie **560** oder **1120**.

```
[Bild zuerst]
Extrahieren Sie den gesamten Text aus diesem Beleg. Geben Sie Positionen, Gesamtsumme, Händler und Datum als JSON zurück.
```

#### Multimodaler Vergleichs-Prompt

```
[Bild 1]
[Bild 2]
Vergleichen Sie diese beiden Screenshots und sagen Sie mir, welcher eher einen neuen Benutzer verwirren dürfte.
```

#### Audio-ASR-Prompt

```
[Audio zuerst]
Transkribieren Sie den folgenden Sprachabschnitt auf Englisch in englischen Text.

Befolgen Sie diese spezifischen Anweisungen für die Formatierung der Antwort:
* Geben Sie nur die Transkription aus, ohne Zeilenumbrüche.
* Schreiben Sie beim Transkribieren von Zahlen die Ziffern, also schreiben Sie 1.7 und nicht eins Komma sieben, und schreiben Sie 3 statt drei.
```

#### Audio-Übersetzungs-Prompt

```
[Audio zuerst]
Transkribieren Sie den folgenden Sprachabschnitt auf Spanisch und übersetzen Sie ihn dann ins Englische.
Wenn Sie die Antwort formatieren, geben Sie zuerst die Transkription auf Spanisch aus, dann eine neue Zeile, dann die Zeichenfolge 'English: ', und dann die Übersetzung ins Englische.
```

### Multimodale Einstellungen

Für beste Ergebnisse mit multimodalen Prompts platzieren Sie multimodale Inhalte zuerst:

* Platzieren Sie **Bild und/oder Audio vor Text**.
* Bei Video übergeben Sie zuerst eine Folge von Frames, dann die Anweisung.

#### Variable Bildauflösung

Gemma 4 unterstützt mehrere visuelle Token-Budgets:

* `70`
* `140`
* `280`
* `560`
* `1120`

Verwenden Sie sie so:

* **70 / 140**: Klassifizierung, Bildunterschriften, schnelle Videoanalyse
* **280 / 560**: allgemeiner multimodaler Chat, Diagramme, Bildschirme, UI-Reasoning
* **1120**: OCR, Dokumenten-Parsing, Handschrift, kleiner Text

#### Audio- und Videolimits

* **Audio** ist verfügbar auf **E2B** und **E4B** nur.
* Audio unterstützt maximal **30 Sekunden**.
* Video unterstützt maximal **60 Sekunden** unter der Annahme von **1 Frame pro Sekunde** Verarbeitung.

#### Audio-Prompt-Vorlagen

**ASR-Prompt**

```
Transkribieren Sie den folgenden Sprachabschnitt in {LANGUAGE} in {LANGUAGE}-Text.

Befolgen Sie diese spezifischen Anweisungen für die Formatierung der Antwort:
* Geben Sie nur die Transkription aus, ohne Zeilenumbrüche.
* Schreiben Sie beim Transkribieren von Zahlen die Ziffern, also schreiben Sie 1.7 und nicht eins Komma sieben, und schreiben Sie 3 statt drei.
```

**Sprachübersetzungs-Prompt**

```
Transkribieren Sie den folgenden Sprachabschnitt in {SOURCE_LANGUAGE} und übersetzen Sie ihn dann in {TARGET_LANGUAGE}.
Wenn Sie die Antwort formatieren, geben Sie zuerst die Transkription in {SOURCE_LANGUAGE} aus, dann eine neue Zeile, dann die Zeichenfolge '{TARGET_LANGUAGE}: ', und dann die Übersetzung in {TARGET_LANGUAGE}.
```

#### Ressourcen und Links

* [Hugging-Face-Blogbeitrag zu Gemma 4](https://huggingface.co/blog/gemma4)
* [NVIDIA-Blogbeitrag zu Gemma 4](https://blogs.nvidia.com/blog/rtx-ai-garage-open-models-google-gemma-4)
* [Offizieller Google-Gemma-4-Blog](https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/)

<div data-with-frame="true"><figure><img src="https://797013937-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2FfKaFMy7LHQYNKpfsf7Zy%2Fgemma%204%20banner.png?alt=media&#x26;token=8bd8d0e0-ccb6-4ded-b99b-2c8a18370ae5" alt=""><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/gemma-4.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
