Déployer des modèles sur LM Studio

Sauvegarder des modèles en GGUF afin de pouvoir les exécuter et les déployer sur LM Studio

Vous pouvez exécuter et déployer votre LLM affiné directement dans LM Studio. LM Studio permet d'exécuter et de déployer facilement des GGUF modèles (format llama.cpp).

Vous pouvez utiliser notre carnet LM Studio ou suivez les instructions ci-dessous :

Exportez votre modèle affiné Unsloth vers .gguf
Importez / téléchargez le GGUF dans LM Studio
Chargez-le dans Chat (ou exécutez-le derrière une API locale compatible OpenAI)

1) Exporter en GGUF (depuis Unsloth)

Si vous avez déjà exporté un .gguf, passez à Importation dans LM Studio.

# Enregistrer localement (crée des artefacts GGUF dans le dossier)
model.save_pretrained_gguf("my_model_gguf", tokenizer, quantization_method = "q4_k_m")
# model.save_pretrained_gguf("my_model_gguf", tokenizer, quantization_method = "q8_0")
# model.save_pretrained_gguf("my_model_gguf", tokenizer, quantization_method = "f16")

# Ou pousser le GGUF sur le Hugging Face Hub
model.push_to_hub_gguf("hf_username/my_model_gguf", tokenizer, quantization_method = "q4_k_m")

q4_k_m est généralement la valeur par défaut pour les exécutions locales.

q8_0 est l'optimum pour une qualité proche de la pleine précision.

f16 est le plus grand / le plus lent, mais la précision d'origine non quantifiée.

2) Importer le GGUF dans LM Studio

LM Studio fournit une CLI appelée lms qui peut importer un .gguf local dans le dossier des modèles de LM Studio.

Importer un fichier GGUF :

lms import /path/to/model.gguf

Conserver le fichier d'origine (copier au lieu de déplacer) :

lms import /path/to/model.gguf --copy

Cliquez pour des paramètres privés plus personnalisables

Garder le modèle à son emplacement (lien symbolique) :

Ceci est utile pour les grands modèles stockés sur un disque dédié.

lms import /path/to/model.gguf --symbolic-link

Passer les invites et choisir vous-même l'espace de noms cible :

lms import /path/to/model.gguf --user-repo my-user/my-finetuned-models

Exécution à blanc (montre ce qui va se passer) :

lms import /path/to/model.gguf --dry-run

Après l'importation, le modèle devrait apparaître dans LM Studio sous Mes modèles.

Si vous avez poussé votre dépôt GGUF sur Hugging Face, vous pouvez le télécharger directement depuis LM Studio.

Option A : Utiliser le téléchargeur intégré de LM Studio

Ouvrez LM Studio
Allez au Découvrir onglet
Recherchez hf_username/repo_name (ou collez l'URL Hugging Face)
Téléchargez la quantisation que vous voulez (par ex. Q4_K_M)

Option B : Utiliser le téléchargeur CLI

# Télécharger depuis HF par nom de dépôt
lms get hf_username/my_model_gguf

# Choisir une quantification avec @
lms get hf_username/my_model_gguf@Q4_K_M

Si vous ne voulez pas utiliser la CLI, vous pouvez placer le .gguf fichier dans la structure de répertoires de modèles attendue par LM Studio.

LM Studio s'attend à ce que les modèles ressemblent à ceci :

~/.lmstudio/models/
└── publisher/
    └── model/
        └── model-file.gguf

Exemple :

~/.lmstudio/models/
└── my-name/
    └── my-finetune/
        └── my-finetune-Q4_K_M.gguf

Puis ouvrez LM Studio et vérifiez Mes modèles.

Astuce : Vous pouvez gérer / vérifier votre répertoire de modèles depuis l'onglet Mes modèles dans LM Studio.

3) Charger et chatter dans LM Studio

Ouvrez LM Studio → Chat
Ouvrez l' chargeur de modèles
Sélectionnez votre modèle importé
(Optionnel) ajustez les paramètres de chargement (déchargement GPU, longueur du contexte, etc.)
Discutez normalement dans l'interface utilisateur

4) Servir votre modèle affiné en tant qu'API locale (compatible OpenAI)

LM Studio peut servir votre modèle chargé derrière une API compatible OpenAI (pratique pour des applications comme Open WebUI, agents personnalisés, scripts, etc.).

Chargez votre modèle dans LM Studio
Allez au Développeur onglet
Démarrez le serveur local
Utilisez l'URL de base affichée (la valeur par défaut est généralement http://localhost:1234/v1)

1) Lister les modèles disponibles

lms ls

2) Chargez votre modèle (options facultatives)

lms load <model-identifier> --gpu=auto --context-length=8192

Remarques :

--gpu=1.0 signifie « essayer de décharger 100 % vers le GPU »
Vous pouvez définir un identifiant stable :

lms load <model-identifier> --identifier="my-finetuned-model"

3) Démarrer le serveur

lms server start --port 1234

Test rapide : lister les modèles

curl http://localhost:1234/v1/models

Exemple Python (OpenAI SDK) :

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="lm-studio",  # LM Studio peut ne pas nécessiter de clé réelle ; ceci est un placeholder courant
)

resp = client.chat.completions.create(
    model="model-identifier-from-lm-studio",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Hello! What did I fine-tune you to do?"},
    ],
    temperature=0.7, # ajustez la température selon les besoins de votre modèle
)

print(resp.choices[0].message.content)

Exemple cURL (chat completions) :

curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "model-identifier-from-lm-studio",
    "messages": [
      {"role": "user", "content": "Say this is a test!"}
    ],
    "temperature": 0.7 # ajustez la température selon les besoins de votre modèle
  }'

Conseil de débogage : Si vous dépannez des formats/modèles de templates, vous pouvez inspecter le brut prompt que LM Studio envoie au modèle en exécutant : lms log stream

Dépannage

Le modèle fonctionne dans Unsloth, mais la sortie dans LM Studio est du charabia / se répète

Ceci est presque toujours un mismatch du modèle de prompt / modèle de chat.

LM Studio va détecter automatiquement le modèle de prompt à partir des métadonnées GGUF quand c'est possible, mais les modèles personnalisés ou mal étiquetés peuvent nécessiter une substitution manuelle.

Correction :

Allez à Mes modèles → cliquez sur l'engrenage ⚙️ à côté de votre modèle
Trouvez Modèle de prompt et réglez-le pour correspondre au template avec lequel vous avez entraîné
Alternativement, dans la barre latérale Chat : activez la Modèle de prompt case (vous pouvez forcer son affichage permanent)

LM Studio n'affiche pas mon modèle dans « Mes modèles »

Préférez lms import /path/to/model.gguf
Ou confirmez que le fichier est dans la structure de dossiers correcte : ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / performances lentes

Utilisez une quantification plus petite (ex : Q4_K_M)
Réduisez la longueur du contexte
Ajustez le déchargement GPU ("Paramètres par modèle" / paramètres de chargement de LM Studio)

Plus de ressources

Article de blog LM Studio + Unsloth (Parcours FunctionGemma) :
LM Studuo Docs Importer des modèles
LM Studio Docs Modèle de prompt
LM Studio Docs API compatible OpenAI

PrécédentOllama SuivantComment installer LM Studio CLI dans le terminal Linux

Mis à jour il y a 22 jours

Ce contenu vous a-t-il été utile ?

hashtag1) Exporter en GGUF (depuis Unsloth)

hashtag2) Importer le GGUF dans LM Studio

hashtag3) Charger et chatter dans LM Studio

hashtag4) Servir votre modèle affiné en tant qu'API locale (compatible OpenAI)

hashtag1) Lister les modèles disponibles

hashtag2) Chargez votre modèle (options facultatives)

hashtag3) Démarrer le serveur

hashtagDépannage

hashtagLe modèle fonctionne dans Unsloth, mais la sortie dans LM Studio est du charabia / se répète

hashtagLM Studio n'affiche pas mon modèle dans « Mes modèles »

hashtagOOM / performances lentes

hashtagPlus de ressources