For the complete documentation index, see llms.txt. This page is also available as Markdown.

Modelle in LM Studio bereitstellen

Modelle in GGUF speichern, damit du sie in LM Studio ausführen und bereitstellen kannst

Sie können Ihr feinabgestimmtes LLM direkt in LM Studio ausführen und bereitstellen. LM Studio ermöglicht das einfache Ausführen und Bereitstellen von GGUF Modellen (llama.cpp-Format).

Sie können unser LM Studio-Notebook verwenden oder die folgenden Anweisungen befolgen:

  1. Exportieren Sie Ihr mit Unsloth feinabgestimmtes Modell nach .gguf

  2. GGUF in LM Studio importieren / herunterladen

  3. Laden Sie es im Chat (oder führen Sie es hinter einer OpenAI-kompatiblen lokalen API aus)

Vor dem Finetuning in LM Studio
Nach dem Finetuning in LM Studio

1) Export nach GGUF (aus Unsloth)

Wenn Sie bereits ein .ggufexportiert haben, springen Sie zu Import in LM Studio.

q4_k_m ist normalerweise der Standard für lokale Ausführungen.

q8_0 ist optimal für Qualität nahe der Vollpräzision.

f16 ist am größten / langsamsten, aber die ursprüngliche nicht quantisierte Präzision.

2) Importieren Sie das GGUF in LM Studio

LM Studio stellt ein CLI-Tool namens lms bereit, das ein lokales .gguf in den Modelle-Ordner von LM Studio importieren kann.

GGUF-Datei importieren:

Die Originaldatei behalten (kopieren statt verschieben):

Für weitere anpassbare private Einstellungen klicken

Das Modell dort belassen, wo es ist (Symlink):

Das ist hilfreich für große Modelle, die auf einem dedizierten Laufwerk gespeichert sind.

Eingabeaufforderungen überspringen und den Ziel-Namespace selbst wählen:

Trockenlauf (zeigt, was passieren wird):

Nach dem Import sollte das Modell in LM Studio unter Meine Modelle.

3) Laden und chatten in LM Studio

  1. Öffnen Sie LM Studio → Chat

  2. Öffnen Sie den Modell-Lader

  3. Wählen Sie Ihr importiertes Modell aus

  4. (Optional) Ladeeinstellungen anpassen (GPU-Auslagerung, Kontextlänge usw.)

  5. Normal im UI chatten

4) Stellen Sie Ihr feinabgestimmtes Modell als lokale API bereit (OpenAI-kompatibel)

LM Studio kann Ihr geladenes Modell hinter einer OpenAI-kompatiblen API bereitstellen (praktisch für Apps wie Open WebUI, benutzerdefinierte Agents, Skripte usw.).

  1. Laden Sie Ihr Modell in LM Studio

  2. Gehen Sie zum Entwickler Tab

  3. Starten Sie den lokalen Server

  4. Verwenden Sie die angezeigte Basis-URL (Standard ist normalerweise http://localhost:1234/v1)

Schnelltest: Modelle auflisten

Python-Beispiel (OpenAI SDK):

cURL-Beispiel (Chat-Vervollständigungen):

Debugging-Tipp: Wenn Sie Probleme mit Formatierung/Vorlagen beheben, können Sie die rohe Eingabeaufforderung, die LM Studio an das Modell sendet, einsehen, indem Sie Folgendes ausführen: lms log stream

Fehlerbehebung

Modell läuft in Unsloth, aber die Ausgabe von LM Studio ist Kauderwelsch / wiederholt sich

Das ist fast immer ein Mismatch zwischen Prompt-Vorlage / Chat-Vorlage.

LM Studio wird, automatisch erkennen die Prompt-Vorlage aus den GGUF-Metadaten, wenn möglich, aber benutzerdefinierte oder falsch getaggte Modelle benötigen möglicherweise eine manuelle Überschreibung.

Behebung:

  1. Gehen Sie zu Meine Modelle → klicken Sie auf das Zahnrad ⚙️ neben Ihrem Modell

  2. Finden Sie Prompt-Vorlage und setzen Sie sie so, dass sie zur Vorlage passt, mit der Sie trainiert haben

  3. Alternativ können Sie in der Chat-Seitenleiste das Prompt-Vorlage Feld aktivieren (Sie können erzwingen, dass es immer angezeigt wird)

LM Studio zeigt mein Modell nicht unter „Meine Modelle“ an

  • Bevorzugen Sie lms import /pfad/zu/model.gguf

  • Oder bestätigen Sie, dass sich die Datei in der korrekten Ordnerstruktur befindet: ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / langsame Leistung

  • Verwenden Sie eine kleinere Quantisierung (z. B.: Q4_K_M)

  • Reduzieren Sie die Kontextlänge

  • Passen Sie die GPU-Auslagerung an (LM Studio „Vorgaben pro Modell“ / Ladeeinstellungen)


Weitere Ressourcen

Zuletzt aktualisiert

War das hilfreich?