# Wie man lokale LLMs mit Docker ausführt: Schritt-für-Schritt-Anleitung

Sie können jetzt jedes Modell ausführen, einschließlich Unsloth [Dynamische GGUFs](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md), auf Mac, Windows oder Linux mit einer einzigen Codezeile oder **gar keinem Code** überhaupt. Wir haben mit Docker zusammengearbeitet, um die Bereitstellung von Modellen zu vereinfachen, und Unsloth treibt jetzt die meisten GGUF-Modelle auf Docker an.

Bevor Sie beginnen, sollten Sie sich [Hardwareanforderungen](#hardware-info--performance) und [unsere Tipps](#hardware-info--performance) ansehen, um die Leistung beim Ausführen von LLMs auf Ihrem Gerät zu optimieren.

<a href="/pages/69b29df1a649bc85fbd042bb58c2d5bc609ad71b#method-1-docker-terminal" class="button primary">Docker-Terminal-Tutorial</a><a href="#method-2-docker-desktop-no-code" class="button primary">Docker-No-Code-Tutorial</a>

Um loszulegen, führen Sie OpenAI [gpt-oss](/docs/de/modelle/gpt-oss-how-to-run-and-fine-tune.md) mit einem einzigen Befehl aus:

```bash
docker model run ai/gpt-oss:20B
```

Oder um ein spezifisches [Unsloth-Modell](/docs/de/loslegen/unsloth-model-catalog.md) / Quant von Hugging Face auszuführen:

```bash
docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
```

{% hint style="success" %}
Sie benötigen nicht Docker Desktop, Docker CE reicht aus, um Modelle auszuführen.
{% endhint %}

#### **Warum Unsloth + Docker?**

Wir arbeiten mit Modelllaboren wie Google Gemma zusammen, um Modellfehler zu beheben und die Genauigkeit zu steigern. Unsere Dynamic GGUFs übertreffen konsistent andere Quantisierungsmethoden und bieten genaue und effiziente Inferenz.

Wenn Sie Docker verwenden, können Sie Modelle sofort ohne Setup ausführen. Docker verwendet [Docker Model Runner](https://github.com/docker/model-runner) (DMR), mit dem Sie LLMs so einfach wie Container ausführen können, ohne Abhängigkeitsprobleme. DMR verwendet Unsloth-Modelle und `llama.cpp` unter der Haube für schnelle, effiziente und aktuelle Inferenz.

## :gear: Hardware-Infos + Leistung

Für die beste Leistung sollte Ihre kombinierte VRAM + RAM mindestens der Größe des quantisierten Modells entsprechen, das Sie herunterladen. Wenn Sie weniger haben, läuft das Modell zwar, aber deutlich langsamer.

Stellen Sie sicher, dass Ihr Gerät auch genügend Festplattenspeicher hat, um das Modell zu speichern. Wenn Ihr Modell nur knapp in den Speicher passt, können Sie je nach Modellgröße mit etwa \~5 Token/s rechnen.

Verfügbarer zusätzlicher RAM/VRAM verbessert die Inferenzgeschwindigkeit, und zusätzlicher VRAM sorgt für den größten Leistungszuwachs (vorausgesetzt, das gesamte Modell passt hinein).

{% hint style="info" %}
**Beispiel:** Wenn Sie gpt-oss-20b (F16) herunterladen und das Modell 13,8 GB groß ist, stellen Sie sicher, dass Ihr Festplattenspeicher und RAM + VRAM > 13,8 GB sind.
{% endhint %}

**Empfehlungen zur Quantisierung:**

* Für Modelle unter 30B Parametern verwenden Sie mindestens 4-Bit (Q4).
* Für Modelle mit 70B Parametern oder mehr verwenden Sie mindestens 2-Bit-Quantisierung (z. B. UD\_Q2\_K\_XL).

## ⚡ Schritt-für-Schritt-Tutorials

Unten sind **zwei Möglichkeiten** Modelle mit Docker auszuführen: eine über das [Terminal](#method-1-docker-terminal), und die andere über [Docker Desktop](#method-2-docker-desktop-no-code) ohne Code:

### Methode Nr. 1: Docker-Terminal

{% stepper %}
{% step %}

#### Docker installieren

Docker Model Runner ist bereits in **beide** [Docker Desktop](https://docs.docker.com/ai/model-runner/get-started/#docker-desktop) und [**Docker CE**](https://docs.docker.com/ai/model-runner/get-started/#docker-engine)**.**
{% endstep %}

{% step %}

#### verfügbar

Modell ausführen

* Wählen Sie ein Modell aus, das Sie ausführen möchten, und führen Sie den Befehl über das Terminal aus. [Durchsuchen Sie den verifizierten Katalog vertrauenswürdiger Modelle auf](https://hub.docker.com/r/ai) oder [Docker Hub](https://huggingface.co/unsloth) Unsloths Hugging Face
* Seite. `Gehen Sie zum Terminal, um die Befehle auszuführen. Um zu prüfen, ob Sie` docker
* installiert haben, können Sie 'docker' eingeben und Enter drücken.

Docker Hub verwendet standardmäßig Unsloth Dynamic 4-Bit, Sie können jedoch Ihre eigene Quantisierungsstufe auswählen (siehe Schritt #3). `gpt-oss-20b` Zum Beispiel, um OpenAI auszuführen

```bash
docker model run ai/gpt-oss:20B
```

Oder um ein spezifisches [Unsloth](/docs/de/loslegen/unsloth-model-catalog.md) in einem einzigen Befehl:

```bash
gpt-oss-Quant von Hugging Face:
```

**docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8\_K\_XL**

<div><figure><img src="/files/529e87f9d4b92c53f0b3c0d16563b033e516a0ae" alt="" width="563"><figcaption><p>So sollte das Ausführen von gpt-oss-20b über die CLI aussehen:</p></figcaption></figure> <figure><img src="/files/3c9051cd38d945052529ed483e1e62f436ad0447" alt="" width="563"><figcaption><p>gpt-oss-20b von Docker Hub</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### gpt-oss-20b mit Unsloths UD-Q8\_K\_XL-Quantisierung

Um eine bestimmte Quantisierungsstufe auszuführen: `:` Wenn Sie eine bestimmte Quantisierung eines Modells ausführen möchten, hängen Sie `und den Namen der Quantisierung an das Modell an (z. B.` Q4 `UD-Q4_K_XL`für Docker oder [hier](https://hub.docker.com/r/ai/gpt-oss#gptoss).

). Sie können alle verfügbaren Quantisierungen auf der Docker-Hub-Seite jedes Modells sehen. Siehe z. B. die aufgelisteten Quantisierungen für gpt-oss [Das Gleiche gilt für Unsloth-Quants auf Hugging Face: Besuchen Sie die](https://huggingface.co/unsloth/gpt-oss-20b-GGUF?show_file_info=gpt-oss-20b-Q2_K_L.gguf)HF-Seite des Modells `, wählen Sie eine Quantisierung und führen Sie dann etwas aus wie:`

<div><figure><img src="/files/3e74a50882982054b6a0f9e3264b78940c6d513a" alt="" width="563"><figcaption><p>docker model run hf.co/unsloth/gpt-oss-20b-GGUF:Q2_K_L <a href="https://hub.docker.com/r/ai/gpt-oss#gptoss">Durchsuchen Sie den verifizierten Katalog vertrauenswürdiger Modelle auf</a></p></figcaption></figure> <figure><img src="/files/8ba4b5358a4288f858c70e797c70721f64b89912" alt="" width="563"><figcaption><p>gpt-oss-Quantisierungsstufen auf<a href="https://huggingface.co/unsloth/gpt-oss-20b-GGUF"> Unsloth gpt-oss-Quantisierungsstufen auf</a></p></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### Hugging Face

{% stepper %}
{% step %}

#### Methode Nr. 2: Docker Desktop (kein Code)

Docker Model Runner ist bereits in [Docker Desktop](https://docs.docker.com/ai/model-runner/get-started/#docker-desktop).

1. Docker Desktop installieren
2. Wählen Sie ein Modell aus, das Sie ausführen möchten, öffnen Sie Docker Desktop und klicken Sie dann auf die Registerkarte Modelle.

Klicken Sie auf 'Modelle hinzufügen +' oder Docker Hub. Suchen Sie nach dem Modell. [Durchsuchen Sie den verifizierten Katalog vertrauenswürdiger Modelle auf](https://hub.docker.com/r/ai).

<div><figure><img src="/files/aa4c02f1e9ab138dcc82cea50c8190dd8db5320d" alt=""><figcaption><p>Durchsuchen Sie den verifizierten Modellkatalog auf</p></figcaption></figure> <figure><img src="/files/7b3c9a472b3710f89c5dc364c629f367315d89dd" alt=""><figcaption><p>#1. Klicken Sie auf die Registerkarte 'Models' und dann auf 'Add models +'.</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### #2. Suchen Sie nach Ihrem gewünschten Modell.

Ziehen Sie das Modell

* Klicken Sie auf das Modell, das Sie ausführen möchten, um die verfügbaren Quantisierungen zu sehen.`und den Namen der Quantisierung an das Modell an (z. B.`).
* Quantisierungen reichen von 1–16 Bit. Für Modelle unter 30B Parametern verwenden Sie mindestens 4-Bit (

<div><figure><img src="/files/1d593b3e3ef971fabcce03bd001bd5ae80f81ead" alt=""><figcaption><p>Wählen Sie eine Größe, die zu Ihrer Hardware passt: Idealerweise sollte Ihr kombinierter gemeinsamer Speicher, RAM oder VRAM gleich oder größer als die Modellgröße sein. Zum Beispiel läuft ein 11-GB-Modell gut auf 12 GB gemeinsamem Speicher.</p></figcaption></figure> <figure><img src="/files/ad0893f84385809e30b88ca985e1aecb7dcdf1af" alt=""><figcaption><p>#3. Wählen Sie, welche Quantisierung Sie herunterladen möchten.</p></figcaption></figure></div>
{% endstep %}

{% step %}

#### verfügbar

\#4. Warten Sie, bis das Modell heruntergeladen ist, und starten Sie es dann.

<figure><img src="/files/7a9b44c5abe2abaf584d82b512687cde1318b6c6" alt="" width="563"><figcaption><p>Geben Sie eine beliebige Aufforderung in das Feld 'Ask a question' ein und verwenden Sie das LLM wie ChatGPT. <code>Ein Beispiel zum Ausführen von Qwen3-4B</code></p></figcaption></figure>
{% endstep %}
{% endstepper %}

#### **UD-Q8\_K\_XL**

Um die neuesten Modelle auszuführen: `llama.cpp` oder `python -c "import vllm, torch, unsloth; print(vllm.__version__); print(torch.__version__); print(unsloth.__version__);"` Sie können jedes neue Modell auf Docker ausführen, solange es von

### unterstützt wird und auf Docker Hub verfügbar ist.

Was ist der Docker Model Runner? [Der Docker Model Runner (DMR) ist ein Open-Source-Tool, mit dem Sie KI-Modelle so einfach ziehen und ausführen können wie Container. GitHub:](https://github.com/docker/model-runner)

<https://github.com/docker/model-runner> `llama.cpp`Er bietet eine konsistente Laufzeit für Modelle, ähnlich wie Docker die Bereitstellung von Anwendungen standardisiert hat. Unter der Haube verwendet er optimierte Backends (wie

) für eine reibungslose, hardwareeffiziente Inferenz auf Ihrem Rechner.

* Egal, ob Sie Forscher, Entwickler oder Hobbyist sind, Sie können jetzt:
* Offene Modelle lokal in Sekunden ausführen.
* Abhängigkeitsprobleme vermeiden, alles wird in Docker gehandhabt.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/tutorials/how-to-run-llms-with-docker.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
