Modelle in LM Studio bereitstellen

Modelle in GGUF speichern, damit du sie in LM Studio ausführen und bereitstellen kannst

Sie können Ihr feinabgestimmtes LLM direkt in LM Studio ausführen und bereitstellen. LM Studio ermöglicht einfaches Ausführen und Bereitstellen von GGUF Modellen (llama.cpp-Format).

Du kannst unser LM Studio-Notebook oder folgen Sie den Anweisungen unten:

Exportieren Sie Ihr in Unsloth feinabgestimmtes Modell nach .gguf
Importieren / laden Sie die GGUF in LM Studio
Laden Sie es im Chat (oder betreiben Sie es hinter einer OpenAI-kompatiblen lokalen API)

1) Exportieren nach GGUF (aus Unsloth)

Wenn Sie bereits ein .ggufexportiert haben, springen Sie zu Import in LM Studio.

# Lokal speichern (erstellt GGUF-Artefakte im Ordner)
model.save_pretrained_gguf("my_model_gguf", tokenizer, quantization_method = "q4_k_m")
# model.save_pretrained_gguf("my_model_gguf", tokenizer, quantization_method = "q8_0")
# model.save_pretrained_gguf("my_model_gguf", tokenizer, quantization_method = "f16")

# Oder GGUF ins Hugging Face Hub hochladen
model.push_to_hub_gguf("hf_username/my_model_gguf", tokenizer, quantization_method = "q4_k_m")

q4_k_m ist normalerweise die Standardeinstellung für lokale Läufe.

q8_0 ist die optimale Wahl für nahezu vollpräzise Qualität.

f16 ist am größten / langsamsten, aber originale unquantisierte Präzision.

2) Importieren Sie die GGUF in LM Studio

LM Studio bietet ein CLI namens lms das eine lokale .gguf in den Models-Ordner von LM Studio importieren kann.

Importieren Sie eine GGUF-Datei:

lms import /path/to/model.gguf

Behalten Sie die Originaldatei (kopieren statt verschieben):

lms import /path/to/model.gguf --copy

Klicken Sie für anpassbarere private Einstellungen

Behalten Sie das Modell, wo es ist (Symlink):

Das ist hilfreich für große Modelle, die auf einem dedizierten Laufwerk gespeichert sind.

lms import /path/to/model.gguf --symbolic-link

Überspringen Sie Eingabeaufforderungen und wählen Sie den Ziel-Namespace selbst:

lms import /path/to/model.gguf --user-repo my-user/my-finetuned-models

Trockenlauf (zeigt, was passieren wird):

lms import /path/to/model.gguf --dry-run

Nach dem Import sollte das Modell in LM Studio unter Meine Modelle.

Wenn Sie Ihr GGUF-Repo zu Hugging Face gepusht haben, können Sie es direkt innerhalb von LM Studio herunterladen.

Option A: Verwenden Sie den In-App-Downloader von LM Studio

Öffnen Sie LM Studio
Gehen Sie zum Entdecken Tab
Suchen Sie nach hf_username/repo_name (oder fügen Sie die Hugging Face-URL ein)
Laden Sie die gewünschte Quantisierung herunter (z. B. Q4_K_M)

Option B: Verwenden Sie den CLI-Downloader

# Von HF per Repo-Name herunterladen
lms get hf_username/my_model_gguf

# Wählen Sie eine Quantisierung mit @
lms get hf_username/my_model_gguf@Q4_K_M

Wenn Sie das CLI nicht verwenden möchten, können Sie die .gguf Datei in die von LM Studio erwartete Modellverzeichnisstruktur legen.

LM Studio erwartet Modelle in dieser Struktur:

~/.lmstudio/models/
└── publisher/
    └── model/
        └── model-file.gguf

Beispiel:

~/.lmstudio/models/
└── my-name/
    └── my-finetune/
        └── my-finetune-Q4_K_M.gguf

Öffnen Sie dann LM Studio und überprüfen Sie Meine Modelle.

Tipp: Sie können Ihr Models-Verzeichnis aus dem Meine Modelle Tab in LM Studio verwalten / überprüfen.

3) Laden und chatten in LM Studio

Öffnen Sie LM Studio → Chat
Öffnen Sie die Modell-Lader
Wählen Sie Ihr importiertes Modell aus
(Optional) Ladeeinstellungen anpassen (GPU-Offload, Kontextlänge, usw.)
Chatten Sie normal in der Benutzeroberfläche

4) Stellen Sie Ihr feinabgestimmtes Modell als lokale API bereit (OpenAI-kompatibel)

LM Studio kann Ihr geladenes Modell hinter einer OpenAI-kompatiblen API bereitstellen (praktisch für Apps wie Open WebUI, benutzerdefinierte Agents, Skripte usw.).

Laden Sie Ihr Modell in LM Studio
Gehen Sie zum Entwickler Tab
Starten Sie den lokalen Server
Verwenden Sie die angezeigte Basis-URL (Standard ist typischerweise http://localhost:1234/v1)

1) Verfügbare Modelle auflisten

lms ls

2) Laden Sie Ihr Modell (optionale Flags)

lms load <model-identifier> --gpu=auto --context-length=8192

Anmerkungen:

--gpu=1.0 bedeutet „versuche, 100 % auf GPU auszulagern“
Sie können eine stabile Kennung festlegen:

lms load <model-identifier> --identifier="my-finetuned-model"

3) Starten Sie den Server

lms server start --port 1234

Schnelltest: Modelle auflisten

curl http://localhost:1234/v1/models

Python-Beispiel (OpenAI SDK):

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",  # LM Studio benötigt möglicherweise keinen echten Schlüssel; dies ist ein gängiger Platzhalter
)

resp = client.chat.completions.create(
    model="model-identifier-from-lm-studio",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello! What did I fine-tune you to do?"},
    ],
    temperature=0.7, # passen Sie die Temperatur entsprechend den Anforderungen Ihres Modells an
)

print(resp.choices[0].message.content)

cURL-Beispiel (Chat-Completions):

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-identifier-from-lm-studio",
    "messages": [
      {"role": "user", "content": "Say this is a test!"}
    ],
    "temperature": 0.7 # passen Sie die Temperatur entsprechend den Anforderungen Ihres Modells an
  }'

Debugging-Tipp: Wenn Sie Formatierung/Vorlagen beheben, können Sie das rohe Prompt, das LM Studio an das Modell sendet, untersuchen, indem Sie Folgendes ausführen: lms log stream

Fehlerbehebung

Modell läuft in Unsloth, aber LM Studio-Ausgabe ist Kauderwelsch / wiederholt sich

Dies ist fast immer ein Prompt-Vorlagen- / Chat-Vorlagen-Mismatch.

LM Studio wird automatisch erkennen die Prompt-Vorlage aus den GGUF-Metadaten, wenn möglich, aber benutzerdefinierte oder falsch markierte Modelle benötigen möglicherweise eine manuelle Überschreibung.

Behebung:

Gehen Sie zu Meine Modelle → klicken Sie auf das Zahnrad ⚙️ neben Ihrem Modell
Finden Sie Prompt-Vorlage und setzen Sie sie so, dass sie mit der Vorlage übereinstimmt, mit der Sie trainiert haben
Alternativ: Aktivieren Sie in der Chat-Seitenleiste die Prompt-Vorlage Box (Sie können erzwingen, dass sie immer angezeigt wird)

LM Studio zeigt mein Modell nicht in „Meine Modelle“ an

Bevorzugen lms import /path/to/model.gguf
Oder bestätigen Sie, dass die Datei in der korrekten Ordnerstruktur liegt: ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / langsame Leistung

Verwenden Sie eine kleinere Quantisierung (z. B.: Q4_K_M)
Reduzieren Sie die Kontextlänge
Passen Sie den GPU-Offload an (LM Studio „Standardwerte pro Modell“ / Ladeeinstellungen)

Mehr Ressourcen

LM Studio + Unsloth Blog-Beitrag (FunctionGemma Durchgang):
LM Studuo Import Models Dokumentation
LM Studio Prompt Template Dokumentation
LM Studio OpenAI-kompatible API-Dokumentation

VorherigeOllama NächsteWie man LM Studio CLI im Linux-Terminal installiert

Zuletzt aktualisiert vor 22 Tagen

War das hilfreich?

hashtag1) Exportieren nach GGUF (aus Unsloth)

hashtag2) Importieren Sie die GGUF in LM Studio

hashtag3) Laden und chatten in LM Studio

hashtag4) Stellen Sie Ihr feinabgestimmtes Modell als lokale API bereit (OpenAI-kompatibel)

hashtag1) Verfügbare Modelle auflisten

hashtag2) Laden Sie Ihr Modell (optionale Flags)

hashtag3) Starten Sie den Server

hashtagFehlerbehebung

hashtagModell läuft in Unsloth, aber LM Studio-Ausgabe ist Kauderwelsch / wiederholt sich

hashtagLM Studio zeigt mein Modell nicht in „Meine Modelle“ an

hashtagOOM / langsame Leistung

hashtagMehr Ressourcen