Déployer des modèles vers LM Studio

Sauvegarder des modèles en GGUF afin de pouvoir les exécuter et les déployer sur LM Studio

Vous pouvez exécuter et déployer votre LLM affiné directement dans LM Studio. LM Studioarrow-up-right permet d'exécuter et de déployer facilement des GGUF modèles (format llama.cpp).

Vous pouvez utiliser notre carnet LM Studioarrow-up-right ou suivez les instructions ci-dessous :

  1. Exportez votre modèle affiné Unsloth vers .gguf

  2. Importez / téléchargez le GGUF dans LM Studio

  3. Chargez-le dans Chat (ou exécutez-le derrière une API locale compatible OpenAI)

Avant l'affinage dans LM Studio
Après l'affinage dans LM Studio

1) Exporter en GGUF (depuis Unsloth)

Si vous avez déjà exporté un .gguf, passez à Importation dans LM Studio.

circle-info

q4_k_m est généralement la valeur par défaut pour les exécutions locales.

q8_0 est l'optimum pour une qualité proche de la pleine précision.

f16 est le plus grand / le plus lent, mais la précision d'origine non quantifiée.

2) Importer le GGUF dans LM Studio

LM Studio fournit une CLI appelée lms qui peut importer un .gguf local dans le dossier des modèles de LM Studio.

Importer un fichier GGUF :

Conserver le fichier d'origine (copier au lieu de déplacer) :

chevron-rightCliquez pour des paramètres privés plus personnalisableshashtag

Garder le modèle à son emplacement (lien symbolique) :

Ceci est utile pour les grands modèles stockés sur un disque dédié.

Passer les invites et choisir vous-même l'espace de noms cible :

Exécution à blanc (montre ce qui va se passer) :

Après l'importation, le modèle devrait apparaître dans LM Studio sous Mes modèles.

3) Charger et chatter dans LM Studio

  1. Ouvrez LM Studio → Chat

  2. Ouvrez l' chargeur de modèles

  3. Sélectionnez votre modèle importé

  4. (Optionnel) ajustez les paramètres de chargement (déchargement GPU, longueur du contexte, etc.)

  5. Discutez normalement dans l'interface utilisateur

4) Servir votre modèle affiné en tant qu'API locale (compatible OpenAI)

LM Studio peut servir votre modèle chargé derrière une API compatible OpenAI (pratique pour des applications comme Open WebUI, agents personnalisés, scripts, etc.).

  1. Chargez votre modèle dans LM Studio

  2. Allez au Développeur onglet

  3. Démarrez le serveur local

  4. Utilisez l'URL de base affichée (la valeur par défaut est généralement http://localhost:1234/v1)

Test rapide : lister les modèles

Exemple Python (OpenAI SDK) :

Exemple cURL (chat completions) :

circle-info

Conseil de débogage : Si vous dépannez des formats/modèles de templates, vous pouvez inspecter le brut prompt que LM Studio envoie au modèle en exécutant : lms log stream

Dépannage

Le modèle fonctionne dans Unsloth, mais la sortie dans LM Studio est du charabia / se répète

Ceci est presque toujours un mismatch du modèle de prompt / modèle de chat.

LM Studio va détecter automatiquement le modèle de prompt à partir des métadonnées GGUF quand c'est possible, mais les modèles personnalisés ou mal étiquetés peuvent nécessiter une substitution manuelle.

Correction :

  1. Allez à Mes modèles → cliquez sur l'engrenage ⚙️ à côté de votre modèle

  2. Trouvez Modèle de prompt et réglez-le pour correspondre au template avec lequel vous avez entraîné

  3. Alternativement, dans la barre latérale Chat : activez la Modèle de prompt case (vous pouvez forcer son affichage permanent)

LM Studio n'affiche pas mon modèle dans « Mes modèles »

  • Préférez lms import /path/to/model.gguf

  • Ou confirmez que le fichier est dans la structure de dossiers correcte : ~/.lmstudio/models/publisher/model/model-file.gguf

OOM / performances lentes

  • Utilisez une quantification plus petite (ex : Q4_K_M)

  • Réduisez la longueur du contexte

  • Ajustez le déchargement GPU ("Paramètres par modèle" / paramètres de chargement de LM Studio)


Plus de ressources

Mis à jour

Ce contenu vous a-t-il été utile ?