# IBM Granite 4.1 - Wie man lokal ausführt

IBM veröffentlicht Granite-4.1-Modelle mit 3 Größen: **3B**, **8B** und **30B**. Granite-4.1 ist eine Modellfamilie dichter Modelle mit langem Kontext, entwickelt für Anweisungsbefolgung, Tool-Aufrufe, Chat, RAG und Coding-Anwendungsfälle. Die Modelle sind für ihre Größen hochgradig wettbewerbsfähig und wurden auf 15T Token trainiert.

Erfahren Sie, wie Sie Unsloth Granite-4.1 Dynamic GGUFs ausführen oder das Modell feinabstimmen/RL. Sie können Granite-4.1 mit unserem kostenlosen Notebook für einen Support-Agenten-Anwendungsfall feinabstimmen.

**Granite-4.1-Modellfamilie:**

* **Granite-4.1-3B Dense:** Leichtgewichtig und effizient für lokale, Edge- und Aufgaben mit hohem Volumen. Großartig für schnelle Klassifizierung, Extraktion, einfaches RAG, Funktionsaufrufe und Feinabstimmung auf kleineren GPUs.
* **Granite-4.1-8B Dense:** Ein ausgewogenes Modell für lokale Assistenten, RAG, Coding, mehrsprachigen Chat und Tool-Nutzungs-Workflows. Dies ist eine großartige Standardwahl, wenn Sie eine höhere Qualität wünschen und den Speicherverbrauch dennoch praktikabel halten möchten.
* **Granite-4.1-30B Dense:** Das stärkste Granite-4.1-Modell. Am besten für anspruchsvollere Enterprise-Assistenten, Aufgaben mit langem Kontext, komplexes RAG, Coding, mehrsprachige Workflows und agentische Tool-Calling-Anwendungsfälle.

### ⚙️ Nutzungsanleitung

Verwenden Sie diese Einstellungen für deterministische, anweisungsbefolgende Antworten:

`temperature=0.0`, `top_p=1.0`, `top_k=0`

* Temperatur von `0.0`
* Top\_K = `0`
* Top\_P = `1.0`
* Empfohlener Mindestkontext: `16,384`
* Maximale Kontextlänge: `131,072` Token

#### Unsloth Granite-4.1 Uploads

* [`unsloth/granite-4.1-3b-GGUF`](https://huggingface.co/unsloth/granite-4.1-3b-GGUF)
* [`unsloth/granite-4.1-8b-GGUF`](https://huggingface.co/unsloth/granite-4.1-8b-GGUF)
* [`unsloth/granite-4.1-30b-GGUF`](https://huggingface.co/unsloth/granite-4.1-30b-GGUF)

## Granite-4.1-Tutorials ausführen

<a href="/pages/6178e5b9bf3b8c57f39cb816b79ebc81ca441793#unsloth-studio-guide" class="button primary">In Unsloth Studio ausführen</a><a href="/pages/6178e5b9bf3b8c57f39cb816b79ebc81ca441793#llama.cpp-run-granite-4.1-tutorial" class="button secondary">In llama.cpp ausführen</a>

{% hint style="warning" %}
Verwenden Sie NICHT **CUDA 13.2** da Sie sonst unverständliche Ausgaben erhalten könnten. NVIDIA arbeitet an einem Fix.
{% endhint %}

### 🦥 Unsloth Studio-Anleitung

Für dieses Tutorial verwenden wir [Unsloth Studio](/docs/de/neu/studio.md), unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle ausführen und **Audio**, Bild und Text lokal auf **Mac, Windows**und Linux eingeben und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* **Modelle** vergleichen **nebeneinander**
* [**Selbstheilendes** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70% weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Unsloth installieren

**MacOS, Linux, WSL:**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell:**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Unsloth Studio einrichten (einmalig)

Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und baut llama.cpp mit CUDA-Unterstützung.

{% hint style="info" %}
**WSL-Benutzer:** Sie werden aufgefordert, Ihr `sudo` Passwort einzugeben, um Build-Abhängigkeiten zu installieren (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Unsloth starten

**MacOS, Linux, WSL:**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell:**

```bash
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/311a34fac8923d2f80dd8c143a1d9c68dff96db5" alt="" width="375"><figcaption></figcaption></figure></div>

**Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.**
{% endstep %}

{% step %}

#### Granite 4.1 suchen und herunterladen

Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden. Gehen Sie dann zum Tab [Studio Chat](/docs/de/neu/studio/chat.md) Tab und suchen Sie in der Suchleiste nach Granite 4.1 und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter.
{% endstep %}

{% step %}

#### Granite 4.1 ausführen

Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserer [Unsloth Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).
{% endstep %}
{% endstepper %}

### 🦙 Llama.cpp-Tutorial

1. Hole dir die neueste `llama.cpp`. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte setzen Sie `-DGGML_CUDA=OFF` dann wie gewohnt fortfahren — Metal-Unterstützung ist standardmäßig aktiviert.

```shell
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Wenn du `llama.cpp` direkt zum Laden von Modellen, können Sie das Folgende tun. `UD-Q4_K_XL` ist der Quantisierungstyp. Sie können ihn auch in andere quantisierte Versionen ändern, wie z. B. `Q4_K_M`, `Q5_K_M`, `Q8_0` oder BF16-Vollpräzision, falls verfügbar.

```shell
./llama.cpp/llama-cli \
    -hf unsloth/granite-4.1-30b-GGUF:UD-Q4_K_XL
```

3. ODER laden Sie das Modell über Hugging Face herunter, nachdem Sie `huggingface_hub` und `hf_transfer`.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/granite-4.1-30b-GGUF",
    local_dir = "unsloth/granite-4.1-30b-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
```

4. Führen Sie Unsloths Flappy-Bird-Test aus.

```shell
./llama.cpp/llama-cli \
    --model unsloth/granite-4.1-30b-GGUF/granite-4.1-30b-UD-Q4_K_XL.gguf \
    --n-gpu-layers 99 \
    --seed 3407 \\
    --prio 2 \\
    --temp 0.0 \
    --top-k 0 \
    --top-p 1.0 \\
    -p "Erstelle eine Python-Pygame-Implementierung von Flappy Bird in einer einzigen Datei."
```

Bearbeiten `--threads 32` für die Anzahl der CPU-Threads bearbeiten, `--ctx-size 16384` für die Kontextlänge, und `--n-gpu-layers 99` für GPU-Offloading. Versuchen Sie, die GPU-Layer anzupassen, wenn Ihrem GPU der Speicher ausgeht. Entfernen Sie `--n-gpu-layers` wenn Sie eine reine CPU-Inferenz verwenden.

5. Für den Konversationsmodus:

```shell
./llama.cpp/llama-cli \
    --model unsloth/granite-4.1-30b-GGUF/granite-4.1-30b-UD-Q4_K_XL.gguf \
    --conversation \
    --n-gpu-layers 99 \
    --seed 3407 \\
    --prio 2 \\
    --temp 0.0 \
    --top-k 0 \
    --top-p 1.0
```

### Granite-4.1 in Unsloth feinabstimmen

Unsloth unterstützt Granite-4.1-Modelle einschließlich 3B, 8B und 30B für die Feinabstimmung. Das Training ist 2x schneller, verwendet weniger VRAM und unterstützt längere Kontextlängen. Granite-4.1-3B und Granite-4.1-8B sind die besten Ausgangspunkte für lokale Feinabstimmung, während Granite-4.1-30B das stärkste Modell für Enterprise-Workflows mit höherer Genauigkeit ist.

* **Granite-4.0** [**kostenloses Fine-Tuning-Notebook**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Granite4.0.ipynb) **(Modellname in Granite-4.1 ändern)**

Dieses Notebook trainiert ein Modell zu einem Support-Agenten, der Kundeninteraktionen versteht, einschließlich Analyse und Empfehlungen. Dieses Setup ermöglicht es Ihnen, einen Bot zu trainieren, der Support-Agenten in Echtzeit unterstützt. Wir zeigen Ihnen auch, wie Sie ein Modell mit in einem Google Sheet gespeicherten Daten trainieren.

#### Unsloth-Konfiguration für Granite-4.1

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

```python
!pip install --upgrade unsloth
```

```python
from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/granite-4.1-8b",
    max_seq_length = 2048,   # Kontextlänge - kann länger sein, benötigt aber mehr Speicher
    dtype = None,            # None für automatische Erkennung
    load_in_4bit = True,     # 4 Bit benötigt viel weniger Speicher
    load_in_8bit = False,    # Etwas genauer, benötigt 2x Speicher
    full_finetuning = False, # Wir haben jetzt vollständiges Finetuning!
    # token = "hf_...",      # einen verwenden, wenn geschützte Modelle genutzt werden
)
```

Um die neueste Version von Unsloth und Unsloth Zoo zwangsweise neu zu installieren:

```shell
pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
```

Sie können den Modellnamen in jedes Granite-4.1-Modell ändern:

```python
model_name = "unsloth/granite-4.1-3b"
model_name = "unsloth/granite-4.1-8b"
model_name = "unsloth/granite-4.1-30b"
```

Verwenden Sie für das 30B-Modell eine größere GPU- oder Multi-GPU-Konfiguration und reduzieren Sie `max_seq_length` oder erhöhen Sie die Quantisierung, wenn Ihnen der Speicher ausgeht.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/ibm-granite-4.1.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.