dockerWie man lokale LLMs mit Docker ausführt: Schritt-für-Schritt-Anleitung

Lerne, wie man große Sprachmodelle (LLMs) mit Docker & Unsloth auf deinem lokalen Gerät ausführt.

Sie können jetzt jedes Modell ausführen, einschließlich Unsloth Dynamische GGUFs, auf Mac, Windows oder Linux mit einer einzigen Codezeile oder gar keinem Code überhaupt. Wir haben mit Docker zusammengearbeitet, um die Bereitstellung von Modellen zu vereinfachen, und Unsloth treibt jetzt die meisten GGUF-Modelle auf Docker an.

Bevor Sie beginnen, sollten Sie sich Hardwareanforderungen und unsere Tipps ansehen, um die Leistung beim Ausführen von LLMs auf Ihrem Gerät zu optimieren.

Docker-Terminal-TutorialDocker-No-Code-Tutorial

Um loszulegen, führen Sie OpenAI gpt-oss mit einem einzigen Befehl aus:

docker model run ai/gpt-oss:20B

Oder um ein spezifisches Unsloth-Modell / Quant von Hugging Face auszuführen:

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
circle-check

Warum Unsloth + Docker?

Wir arbeiten mit Modelllaboren wie Google Gemma zusammen, um Modellfehler zu beheben und die Genauigkeit zu steigern. Unsere Dynamic GGUFs übertreffen konsistent andere Quantisierungsmethoden und bieten genaue und effiziente Inferenz.

Wenn Sie Docker verwenden, können Sie Modelle sofort ohne Setup ausführen. Docker verwendet Docker Model Runnerarrow-up-right (DMR), mit dem Sie LLMs so einfach wie Container ausführen können, ohne Abhängigkeitsprobleme. DMR verwendet Unsloth-Modelle und llama.cpp unter der Haube für schnelle, effiziente und aktuelle Inferenz.

⚙️ Hardware-Infos + Leistung

Für die beste Leistung sollte Ihre kombinierte VRAM + RAM mindestens der Größe des quantisierten Modells entsprechen, das Sie herunterladen. Wenn Sie weniger haben, läuft das Modell zwar, aber deutlich langsamer.

Stellen Sie sicher, dass Ihr Gerät auch genügend Festplattenspeicher hat, um das Modell zu speichern. Wenn Ihr Modell nur knapp in den Speicher passt, können Sie je nach Modellgröße mit etwa ~5 Token/s rechnen.

Verfügbarer zusätzlicher RAM/VRAM verbessert die Inferenzgeschwindigkeit, und zusätzlicher VRAM sorgt für den größten Leistungszuwachs (vorausgesetzt, das gesamte Modell passt hinein).

circle-info

Beispiel: Wenn Sie gpt-oss-20b (F16) herunterladen und das Modell 13,8 GB groß ist, stellen Sie sicher, dass Ihr Festplattenspeicher und RAM + VRAM > 13,8 GB sind.

Empfehlungen zur Quantisierung:

  • Für Modelle unter 30B Parametern verwenden Sie mindestens 4-Bit (Q4).

  • Für Modelle mit 70B Parametern oder mehr verwenden Sie mindestens 2-Bit-Quantisierung (z. B. UD_Q2_K_XL).

⚡ Schritt-für-Schritt-Tutorials

Unten sind zwei Möglichkeiten Modelle mit Docker auszuführen: eine über das Terminal, und die andere über Docker Desktop ohne Code:

Methode Nr. 1: Docker-Terminal

1

Docker installieren

Docker Model Runner ist bereits in beide Docker Desktoparrow-up-right und Docker CEarrow-up-right.

2

verfügbar

Modell ausführen

Docker Hub verwendet standardmäßig Unsloth Dynamic 4-Bit, Sie können jedoch Ihre eigene Quantisierungsstufe auswählen (siehe Schritt #3). gpt-oss-20b Zum Beispiel, um OpenAI auszuführen

Oder um ein spezifisches Unsloth in einem einzigen Befehl:

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL

So sollte das Ausführen von gpt-oss-20b über die CLI aussehen:
gpt-oss-20b von Docker Hub
3

gpt-oss-20b mit Unsloths UD-Q8_K_XL-Quantisierung

Um eine bestimmte Quantisierungsstufe auszuführen: : Wenn Sie eine bestimmte Quantisierung eines Modells ausführen möchten, hängen Sie und den Namen der Quantisierung an das Modell an (z. B. Q4 UD-Q4_K_XLfür Docker oder hierarrow-up-right.

). Sie können alle verfügbaren Quantisierungen auf der Docker-Hub-Seite jedes Modells sehen. Siehe z. B. die aufgelisteten Quantisierungen für gpt-oss Das Gleiche gilt für Unsloth-Quants auf Hugging Face: Besuchen Sie diearrow-up-rightHF-Seite des Modells , wählen Sie eine Quantisierung und führen Sie dann etwas aus wie:

Hugging Face

1

Methode Nr. 2: Docker Desktop (kein Code)

Docker Model Runner ist bereits in Docker Desktoparrow-up-right.

  1. Docker Desktop installieren

  2. Wählen Sie ein Modell aus, das Sie ausführen möchten, öffnen Sie Docker Desktop und klicken Sie dann auf die Registerkarte Modelle.

Klicken Sie auf 'Modelle hinzufügen +' oder Docker Hub. Suchen Sie nach dem Modell. Durchsuchen Sie den verifizierten Katalog vertrauenswürdiger Modelle aufarrow-up-right.

Durchsuchen Sie den verifizierten Modellkatalog auf
#1. Klicken Sie auf die Registerkarte 'Models' und dann auf 'Add models +'.
2

#2. Suchen Sie nach Ihrem gewünschten Modell.

Ziehen Sie das Modell

  • Klicken Sie auf das Modell, das Sie ausführen möchten, um die verfügbaren Quantisierungen zu sehen.und den Namen der Quantisierung an das Modell an (z. B.).

  • Quantisierungen reichen von 1–16 Bit. Für Modelle unter 30B Parametern verwenden Sie mindestens 4-Bit (

Wählen Sie eine Größe, die zu Ihrer Hardware passt: Idealerweise sollte Ihr kombinierter gemeinsamer Speicher, RAM oder VRAM gleich oder größer als die Modellgröße sein. Zum Beispiel läuft ein 11-GB-Modell gut auf 12 GB gemeinsamem Speicher.
#3. Wählen Sie, welche Quantisierung Sie herunterladen möchten.
3

verfügbar

#4. Warten Sie, bis das Modell heruntergeladen ist, und starten Sie es dann.

Geben Sie eine beliebige Aufforderung in das Feld 'Ask a question' ein und verwenden Sie das LLM wie ChatGPT. Ein Beispiel zum Ausführen von Qwen3-4B

UD-Q8_K_XL

Um die neuesten Modelle auszuführen: llama.cpp oder python -c "import vllm, torch, unsloth; print(vllm.__version__); print(torch.__version__); print(unsloth.__version__);" Sie können jedes neue Modell auf Docker ausführen, solange es von

unterstützt wird und auf Docker Hub verfügbar ist.

Was ist der Docker Model Runner? Der Docker Model Runner (DMR) ist ein Open-Source-Tool, mit dem Sie KI-Modelle so einfach ziehen und ausführen können wie Container. GitHub:arrow-up-right

https://github.com/docker/model-runner llama.cppEr bietet eine konsistente Laufzeit für Modelle, ähnlich wie Docker die Bereitstellung von Anwendungen standardisiert hat. Unter der Haube verwendet er optimierte Backends (wie

) für eine reibungslose, hardwareeffiziente Inferenz auf Ihrem Rechner.

  • Egal, ob Sie Forscher, Entwickler oder Hobbyist sind, Sie können jetzt:

  • Offene Modelle lokal in Sekunden ausführen.

  • Abhängigkeitsprobleme vermeiden, alles wird in Docker gehandhabt.

Zuletzt aktualisiert

War das hilfreich?