Modelle zu LM Studio deployen

Modelle als GGUF speichern, damit du sie in LM Studio ausführen und bereitstellen kannst

Sie können Ihr feinabgestimmtes LLM direkt in LM Studio ausführen und bereitstellen. LM Studioarrow-up-right ermöglicht einfaches Ausführen und Bereitstellen von GGUF Modellen (llama.cpp-Format).

Du kannst unser LM Studio-Notebookarrow-up-right oder folgen Sie den Anweisungen unten:

  1. Exportieren Sie Ihr in Unsloth feinabgestimmtes Modell nach .gguf

  2. Importieren / laden Sie die GGUF in LM Studio

  3. Laden Sie es im Chat (oder betreiben Sie es hinter einer OpenAI-kompatiblen lokalen API)

Vor dem Fine-Tuning in LM Studio
Nach dem Fine-Tuning in LM Studio

1) Exportieren nach GGUF (aus Unsloth)

Wenn Sie bereits ein .ggufexportiert haben, springen Sie zu Import in LM Studio.

circle-info

q4_k_m ist normalerweise die Standardeinstellung für lokale Läufe.

q8_0 ist die optimale Wahl für nahezu vollpräzise Qualität.

f16 ist am größten / langsamsten, aber originale unquantisierte Präzision.

2) Importieren Sie die GGUF in LM Studio

LM Studio bietet ein CLI namens lms das eine lokale .gguf in den Models-Ordner von LM Studio importieren kann.

Importieren Sie eine GGUF-Datei:

Behalten Sie die Originaldatei (kopieren statt verschieben):

chevron-rightKlicken Sie für anpassbarere private Einstellungenhashtag

Behalten Sie das Modell, wo es ist (Symlink):

Das ist hilfreich für große Modelle, die auf einem dedizierten Laufwerk gespeichert sind.

Überspringen Sie Eingabeaufforderungen und wählen Sie den Ziel-Namespace selbst:

Trockenlauf (zeigt, was passieren wird):

Nach dem Import sollte das Modell in LM Studio unter Meine Modelle.

3) Laden und chatten in LM Studio

  1. Öffnen Sie LM Studio → Chat

  2. Öffnen Sie die Modell-Lader

  3. Wählen Sie Ihr importiertes Modell aus

  4. (Optional) Ladeeinstellungen anpassen (GPU-Offload, Kontextlänge, usw.)

  5. Chatten Sie normal in der Benutzeroberfläche

4) Stellen Sie Ihr feinabgestimmtes Modell als lokale API bereit (OpenAI-kompatibel)

LM Studio kann Ihr geladenes Modell hinter einer OpenAI-kompatiblen API bereitstellen (praktisch für Apps wie Open WebUI, benutzerdefinierte Agents, Skripte usw.).

  1. Laden Sie Ihr Modell in LM Studio

  2. Gehen Sie zum Entwickler Tab

  3. Starten Sie den lokalen Server

  4. Verwenden Sie die angezeigte Basis-URL (Standard ist typischerweise http://localhost:1234/v1)

Schnelltest: Modelle auflisten

Python-Beispiel (OpenAI SDK):

cURL-Beispiel (Chat-Completions):

circle-info

Debugging-Tipp: Wenn Sie Formatierung/Vorlagen beheben, können Sie das rohe Prompt, das LM Studio an das Modell sendet, untersuchen, indem Sie Folgendes ausführen: lms log stream

Fehlerbehebung

Modell läuft in Unsloth, aber LM Studio-Ausgabe ist Kauderwelsch / wiederholt sich

Dies ist fast immer ein Prompt-Vorlagen- / Chat-Vorlagen-Mismatch.

LM Studio wird automatisch erkennen die Prompt-Vorlage aus den GGUF-Metadaten, wenn möglich, aber benutzerdefinierte oder falsch markierte Modelle benötigen möglicherweise eine manuelle Überschreibung.

Behebung:

  1. Gehen Sie zu Meine Modelle → klicken Sie auf das Zahnrad ⚙️ neben Ihrem Modell

  2. Finden Sie Prompt-Vorlage und setzen Sie sie so, dass sie mit der Vorlage übereinstimmt, mit der Sie trainiert haben

  3. Alternativ: Aktivieren Sie in der Chat-Seitenleiste die Prompt-Vorlage Box (Sie können erzwingen, dass sie immer angezeigt wird)

LM Studio zeigt mein Modell nicht in „Meine Modelle“ an

  • Bevorzugen lms import /path/to/model.gguf

  • Oder bestätigen Sie, dass die Datei in der korrekten Ordnerstruktur liegt: ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / langsame Leistung

  • Verwenden Sie eine kleinere Quantisierung (z. B.: Q4_K_M)

  • Reduzieren Sie die Kontextlänge

  • Passen Sie den GPU-Offload an (LM Studio „Standardwerte pro Modell“ / Ladeeinstellungen)


Mehr Ressourcen

Zuletzt aktualisiert

War das hilfreich?