Wie man lokale LLMs mit Docker ausführt: Schritt-für-Schritt-Anleitung

Lerne, wie man große Sprachmodelle (LLMs) mit Docker & Unsloth auf deinem lokalen Gerät ausführt.

Sie können jetzt jedes Modell ausführen, einschließlich Unsloth Dynamische GGUFs, auf Mac, Windows oder Linux mit einer einzigen Codezeile oder gar keinem Code überhaupt. Wir haben mit Docker zusammengearbeitet, um die Bereitstellung von Modellen zu vereinfachen, und Unsloth treibt jetzt die meisten GGUF-Modelle auf Docker an.

Bevor Sie beginnen, sollten Sie sich Hardwareanforderungen und unsere Tipps ansehen, um die Leistung beim Ausführen von LLMs auf Ihrem Gerät zu optimieren.

Docker-Terminal-Tutorial Docker-No-Code-Tutorial

Um loszulegen, führen Sie OpenAI gpt-oss mit einem einzigen Befehl aus:

docker model run ai/gpt-oss:20B

Oder um ein spezifisches Unsloth-Modell / Quant von Hugging Face auszuführen:

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16

Sie benötigen nicht Docker Desktop, Docker CE reicht aus, um Modelle auszuführen.

Warum Unsloth + Docker?

Wir arbeiten mit Modelllaboren wie Google Gemma zusammen, um Modellfehler zu beheben und die Genauigkeit zu steigern. Unsere Dynamic GGUFs übertreffen konsistent andere Quantisierungsmethoden und bieten genaue und effiziente Inferenz.

Wenn Sie Docker verwenden, können Sie Modelle sofort ohne Setup ausführen. Docker verwendet Docker Model Runner (DMR), mit dem Sie LLMs so einfach wie Container ausführen können, ohne Abhängigkeitsprobleme. DMR verwendet Unsloth-Modelle und llama.cpp unter der Haube für schnelle, effiziente und aktuelle Inferenz.

⚙️ Hardware-Infos + Leistung

Für die beste Leistung sollte Ihre kombinierte VRAM + RAM mindestens der Größe des quantisierten Modells entsprechen, das Sie herunterladen. Wenn Sie weniger haben, läuft das Modell zwar, aber deutlich langsamer.

Stellen Sie sicher, dass Ihr Gerät auch genügend Festplattenspeicher hat, um das Modell zu speichern. Wenn Ihr Modell nur knapp in den Speicher passt, können Sie je nach Modellgröße mit etwa ~5 Token/s rechnen.

Verfügbarer zusätzlicher RAM/VRAM verbessert die Inferenzgeschwindigkeit, und zusätzlicher VRAM sorgt für den größten Leistungszuwachs (vorausgesetzt, das gesamte Modell passt hinein).

Beispiel: Wenn Sie gpt-oss-20b (F16) herunterladen und das Modell 13,8 GB groß ist, stellen Sie sicher, dass Ihr Festplattenspeicher und RAM + VRAM > 13,8 GB sind.

Empfehlungen zur Quantisierung:

Für Modelle unter 30B Parametern verwenden Sie mindestens 4-Bit (Q4).
Für Modelle mit 70B Parametern oder mehr verwenden Sie mindestens 2-Bit-Quantisierung (z. B. UD_Q2_K_XL).

⚡ Schritt-für-Schritt-Tutorials

Unten sind zwei Möglichkeiten Modelle mit Docker auszuführen: eine über das Terminal, und die andere über Docker Desktop ohne Code:

Methode Nr. 1: Docker-Terminal

Docker installieren

Docker Model Runner ist bereits in beide Docker Desktop und Docker CE.

verfügbar

Modell ausführen

Wählen Sie ein Modell aus, das Sie ausführen möchten, und führen Sie den Befehl über das Terminal aus. Durchsuchen Sie den verifizierten Katalog vertrauenswürdiger Modelle auf oder Docker Hub Unsloths Hugging Face
Seite. Gehen Sie zum Terminal, um die Befehle auszuführen. Um zu prüfen, ob Sie docker
installiert haben, können Sie 'docker' eingeben und Enter drücken.

Docker Hub verwendet standardmäßig Unsloth Dynamic 4-Bit, Sie können jedoch Ihre eigene Quantisierungsstufe auswählen (siehe Schritt #3). gpt-oss-20b Zum Beispiel, um OpenAI auszuführen

docker model run ai/gpt-oss:20B

Oder um ein spezifisches Unsloth in einem einzigen Befehl:

gpt-oss-Quant von Hugging Face:

docker model run hf.co/unsloth/gpt-oss-20b-GGUF:UD-Q8_K_XL

gpt-oss-20b mit Unsloths UD-Q8_K_XL-Quantisierung

Um eine bestimmte Quantisierungsstufe auszuführen: : Wenn Sie eine bestimmte Quantisierung eines Modells ausführen möchten, hängen Sie und den Namen der Quantisierung an das Modell an (z. B. Q4 UD-Q4_K_XLfür Docker oder hier.

). Sie können alle verfügbaren Quantisierungen auf der Docker-Hub-Seite jedes Modells sehen. Siehe z. B. die aufgelisteten Quantisierungen für gpt-oss Das Gleiche gilt für Unsloth-Quants auf Hugging Face: Besuchen Sie dieHF-Seite des Modells , wählen Sie eine Quantisierung und führen Sie dann etwas aus wie:

Hugging Face

Methode Nr. 2: Docker Desktop (kein Code)

Docker Model Runner ist bereits in Docker Desktop.

Docker Desktop installieren
Wählen Sie ein Modell aus, das Sie ausführen möchten, öffnen Sie Docker Desktop und klicken Sie dann auf die Registerkarte Modelle.

Klicken Sie auf 'Modelle hinzufügen +' oder Docker Hub. Suchen Sie nach dem Modell. Durchsuchen Sie den verifizierten Katalog vertrauenswürdiger Modelle auf.

#2. Suchen Sie nach Ihrem gewünschten Modell.

Ziehen Sie das Modell

Klicken Sie auf das Modell, das Sie ausführen möchten, um die verfügbaren Quantisierungen zu sehen.und den Namen der Quantisierung an das Modell an (z. B.).
Quantisierungen reichen von 1–16 Bit. Für Modelle unter 30B Parametern verwenden Sie mindestens 4-Bit (

verfügbar

#4. Warten Sie, bis das Modell heruntergeladen ist, und starten Sie es dann.

UD-Q8_K_XL

Um die neuesten Modelle auszuführen: llama.cpp oder python -c "import vllm, torch, unsloth; print(vllm.__version__); print(torch.__version__); print(unsloth.__version__);" Sie können jedes neue Modell auf Docker ausführen, solange es von

unterstützt wird und auf Docker Hub verfügbar ist.

Was ist der Docker Model Runner? Der Docker Model Runner (DMR) ist ein Open-Source-Tool, mit dem Sie KI-Modelle so einfach ziehen und ausführen können wie Container. GitHub:

https://github.com/docker/model-runner llama.cppEr bietet eine konsistente Laufzeit für Modelle, ähnlich wie Docker die Bereitstellung von Anwendungen standardisiert hat. Unter der Haube verwendet er optimierte Backends (wie

) für eine reibungslose, hardwareeffiziente Inferenz auf Ihrem Rechner.

Egal, ob Sie Forscher, Entwickler oder Hobbyist sind, Sie können jetzt:
Offene Modelle lokal in Sekunden ausführen.
Abhängigkeitsprobleme vermeiden, alles wird in Docker gehandhabt.

VorherigeDevstral NächsteDeepSeek-V3-0324

Zuletzt aktualisiert vor 3 Monaten

War das hilfreich?

hashtagWarum Unsloth + Docker?

hashtag⚙️ Hardware-Infos + Leistung

hashtag⚡ Schritt-für-Schritt-Tutorials

hashtagMethode Nr. 1: Docker-Terminal

hashtagDocker installieren

hashtagverfügbar

hashtaggpt-oss-20b mit Unsloths UD-Q8_K_XL-Quantisierung

hashtagHugging Face

hashtagMethode Nr. 2: Docker Desktop (kein Code)

hashtag#2. Suchen Sie nach Ihrem gewünschten Modell.

hashtagverfügbar

hashtagUD-Q8_K_XL

hashtagunterstützt wird und auf Docker Hub verfügbar ist.

Warum Unsloth + Docker?

⚙️ Hardware-Infos + Leistung

⚡ Schritt-für-Schritt-Tutorials

Methode Nr. 1: Docker-Terminal

Docker installieren

verfügbar

gpt-oss-20b mit Unsloths UD-Q8_K_XL-Quantisierung

Hugging Face

Methode Nr. 2: Docker Desktop (kein Code)

#2. Suchen Sie nach Ihrem gewünschten Modell.

verfügbar

UD-Q8_K_XL

unterstützt wird und auf Docker Hub verfügbar ist.