Comment exécuter des modèles avec Unsloth Studio
Exécutez des modèles IA, des LLMs et des GGUFs localement avec Unsloth Studio.
Unsloth Studio vous permet d'exécuter des modèles d'IA 100 % hors ligne sur votre ordinateur. Exécutez des formats de modèles tels que GGUF et safetensors depuis Hugging Face ou depuis vos fichiers locaux.
Fonctionne sur tous les MacOS, CPU, Windows, Linux, configurations WSL ! Aucune GPU requise
Rechercher + Télécharger + Exécuter n'importe quel modèle comme les GGUF, adaptateurs LoRA, safetensors, etc.
Comparer deux sorties de modèle différentes côte à côte
Appel d'outil d'auto-réparation / recherche web, exécution de code et appel d'API compatibles OpenAI
Réglage automatique des paramètres d'inférence (température, top-p, etc.) et modification des modèles de conversation
Téléversez des images, audio, PDF, code, DOCX et d'autres types de fichiers pour discuter.

Utilisation d'Unsloth Studio Chat
Rechercher et exécuter des modèles
Vous pouvez rechercher et télécharger n'importe quel modèle via Hugging Face ou utiliser des fichiers locaux.
Studio prend en charge une large gamme de types de modèles, y compris GGUF, modèles vision-langage et de synthèse vocale. Exécutez les modèles les plus récents comme Qwen3.5 ou NVIDIA Nemotron 3.
Téléversez des images, audio, PDF, code, DOCX et d'autres types de fichiers pour discuter.

Unsloth Studio Chat fonctionne automatiquement sur configurations multi-GPU pour l'inférence.
Exécution de code
Transformez Unsloth Studio en votre propre assistant actif. Studio permet à un LLM d'exécuter du code et des programmes dans un bac à sable afin qu'il puisse calculer, analyser des données, tester du code, générer des fichiers ou vérifier une réponse par un calcul réel.
Cela rend les réponses des modèles plus fiables et plus précises.


Réglage automatique des paramètres
Les paramètres d'inférence tels que température, top-p, top-k sont automatiquement pré-réglés pour les nouveaux modèles comme Qwen3.5 afin que vous puissiez obtenir les meilleures sorties sans vous soucier des réglages.
Vous pouvez également ajuster les paramètres manuellement et modifier le prompt système pour contrôler le comportement du modèle.


Arène des modèles
Studio Chat vous permet de comparer deux modèles côte à côte en utilisant le même prompt. Par ex. comparez le modèle de base et l'adaptateur LoRa. L'inférence chargera d'abord un modèle, puis le second (l'inférence parallèle est en cours de développement).

Après l'entraînement, vous pouvez comparer le modèle de base et les modèles finement ajustés côte à côte avec le même prompt pour voir ce qui a changé et si les résultats se sont améliorés.
Ce flux de travail facilite la visualisation de la manière dont votre fine-tuning a modifié les réponses du modèle et si cela a amélioré les résultats pour votre cas d'utilisation.

Ajout de fichiers comme contexte
Studio Chat prend en charge les entrées multimodales directement dans la conversation. Vous pouvez joindre des documents, images ou audio comme contexte supplémentaire pour un prompt.

Cela facilite le test de la façon dont un modèle gère des entrées du monde réel telles que des PDF, des captures d'écran ou du matériel de référence. Les fichiers sont traités localement et inclus comme contexte pour le modèle.
Utilisation de modèles GGUF avec llama.cpp
Après avoir affiné un modèle ou un adaptateur dans Studio, vous pouvez l'exporter au format GGUF et exécuter une inférence locale avec llama.cpp directement dans Studio Chat. Unsloth Studio est alimenté par llama.cpp et Hugging Face.
Inférence locale GGUF
GGUF les modèles s'exécutent dans Studio Chat comme n'importe quel autre modèle, en utilisant la même interface et les mêmes paramètres de génération.
Différentes variantes de quantification peuvent être sélectionnées en fonction des exigences de mémoire de votre système.
Unsloth Studio Chat fonctionne automatiquement sur configurations multi-GPU pour l'inférence.

Mis à jour
Ce contenu vous a-t-il été utile ?

