⚠️Dépannage & FAQs

Conseils pour résoudre les problèmes, et questions fréquemment posées.

Si vous rencontrez toujours des problèmes avec les versions ou les dépendances, veuillez utiliser notre image Docker qui aura tout préinstallé.

circle-check

Affiner un nouveau modèle non pris en charge par Unsloth ?

Unsloth fonctionne avec tout modèle pris en charge par transformers. Si un modèle n’est pas dans nos uploads ou ne fonctionne pas directement, il est généralement encore pris en charge ; certains modèles plus récents peuvent juste nécessiter un petit ajustement manuel en raison de nos optimisations.

Dans la plupart des cas, vous pouvez activer la compatibilité en définissant trust_remote_code=True dans votre script de fine-tuning. Voici un exemple utilisant DeepSeek-OCR:

Exécuter dans Unsloth fonctionne bien, mais après exportation et exécution sur d'autres plates-formes, les résultats sont médiocres

Vous pouvez parfois rencontrer un problème où votre modèle s'exécute et produit de bons résultats sur Unsloth, mais lorsque vous l'utilisez sur une autre plate-forme comme Ollama ou vLLM, les résultats sont médiocres ou vous obtenez des charabias, des générations sans fin/infinies ou sorties répétées.

  • La cause la plus courante de cette erreur est l'utilisation d'un modèle de chat incorrect. Il est essentiel d'utiliser le MÊME modèle de chat qui a été utilisé lors de l'entraînement du modèle dans Unsloth et plus tard lorsque vous l'exécutez dans un autre framework, tel que llama.cpp ou Ollama. Lors de l'inférence à partir d'un modèle enregistré, il est crucial d'appliquer le bon modèle.

  • Cela peut aussi être dû au fait que votre moteur d'inférence ajoute un jeton « début de séquence » inutile (ou au contraire l'absence de celui-ci) ; assurez-vous donc de vérifier les deux hypothèses !

  • Utilisez nos notebooks conversationnels pour forcer le modèle de chat - cela résoudra la plupart des problèmes.

Enregistrer en GGUF / vLLM 16 bits plante

Vous pouvez essayer de réduire l'utilisation GPU maximale pendant l'enregistrement en modifiant maximum_memory_usage.

La valeur par défaut est model.save_pretrained(..., maximum_memory_usage = 0.75). Réduisez-la à par exemple 0.5 pour utiliser 50 % de la mémoire GPU de pointe ou moins. Cela peut réduire les plantages OOM pendant l'enregistrement.

Comment enregistrer manuellement au format GGUF ?

Enregistrez d'abord votre modèle en 16 bits via :

Compilez llama.cpp depuis la source comme ci-dessous :

Ensuite, enregistrez le modèle en F16 :

Pourquoi Q8_K_XL est-il plus lent que Q8_0 GGUF ?

Sur les appareils Mac, il semble que le BF16 puisse être plus lent que le F16. Q8_K_XL surclasse certaines couches en BF16, d'où le ralentissement. Nous modifions activement notre processus de conversion pour faire du F16 le choix par défaut pour Q8_K_XL afin de réduire les pertes de performance.

Comment faire l'évaluation

Pour configurer l'évaluation dans votre session d'entraînement, vous devez d'abord diviser votre jeu de données en un ensemble d'entraînement et un ensemble de test. Vous devriez toujours mélanger la sélection du jeu de données, sinon votre évaluation est erronée !

Ensuite, nous pouvons définir les arguments d'entraînement pour activer l'évaluation. Rappel : l'évaluation peut être très, très lente surtout si vous définissez eval_steps = 1 ce qui signifie que vous évaluez à chaque étape. Si c'est le cas, essayez de réduire la taille de eval_dataset à, par exemple, 100 lignes ou quelque chose comme ça.

Boucle d'évaluation - Mémoire insuffisante ou plantage.

Un problème courant lorsque vous avez un OOM est que vous avez défini votre taille de lot trop élevée. Réduisez-la en dessous de 2 pour utiliser moins de VRAM. Utilisez aussi fp16_full_eval=True pour utiliser le float16 pour l'évaluation, ce qui réduit la mémoire de moitié.

Divisez d'abord votre jeu de données d'entraînement en un ensemble d'entraînement et un ensemble de test. Réglez les paramètres du trainer pour l'évaluation comme suit :

Ceci évitera les OOM et rendra cela quelque peu plus rapide. Vous pouvez aussi utiliser bf16_full_eval=True pour les machines bf16. Par défaut, Unsloth devrait avoir activé ces drapeaux par défaut à partir de juin 2025.

Comment faire un Early Stopping ?

Si vous voulez arrêter le finetuning / l'entraînement parce que la perte d'évaluation ne diminue pas, vous pouvez utiliser l'arrêt précoce (early stopping) qui interrompt le processus d'entraînement. Utilisez EarlyStoppingCallback.

Comme d'habitude, configurez votre trainer et votre jeu de données d'évaluation. Ce qui suit est utilisé pour arrêter l'exécution d'entraînement si la eval_loss (la perte d'évaluation) ne diminue pas après environ 3 étapes.

Nous ajoutons ensuite le callback qui peut également être personnalisé :

Ensuite entraînez le modèle comme d'habitude via trainer.train() .

Le téléchargement reste bloqué à 90 à 95 %

Si votre modèle reste bloqué à 90, 95 % pendant longtemps, vous pouvez désactiver certains processus de téléchargement rapides pour forcer les téléchargements à être synchrones et afficher davantage de messages d'erreur.

Utilisez simplement UNSLOTH_STABLE_DOWNLOADS=1 avant tout import Unsloth.

RuntimeError : CUDA error: device-side assert triggered

Redémarrez et exécutez tout, mais placez ceci au début avant tout import Unsloth. Veuillez aussi signaler un bug dès que possible, merci !

Toutes les étiquettes de votre jeu de données sont -100. Les pertes d'entraînement seront toutes à 0.

Cela signifie que votre utilisation de train_on_responses_only est incorrecte pour ce modèle particulier. train_on_responses_only vous permet de masquer la question de l'utilisateur et d'entraîner votre modèle à produire la réponse de l'assistant avec un poids plus élevé. Il est connu que cela augmente la précision d'environ 1 % ou plus. Voir notre Guide des hyperparamètres LoRA pour plus de détails.

Pour les modèles de type Llama 3.1, 3.2, 3.3, veuillez utiliser ce qui suit :

Pour Gemma 2, 3. 3n modèles, utilisez ce qui suit :

Unsloth est plus lent que prévu ?

Si votre vitesse semble plus lente au début, c'est probablement parce que torch.compile prend généralement ~5 minutes (ou plus) pour se chauffer et terminer la compilation. Assurez-vous de mesurer le débit après qu'il soit entièrement chargé car sur des exécutions plus longues, Unsloth devrait être beaucoup plus rapide.

Pour désactiver, utilisez :

Certains poids de Gemma3nForConditionalGeneration n'ont pas été initialisés à partir du checkpoint du modèle

Ceci est une erreur critique, car cela signifie que certains poids ne sont pas correctement analysés, ce qui provoquera des sorties incorrectes. Cela peut généralement être résolu en mettant à jour Unsloth

pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo

Ensuite mettez à jour transformers et timm :

pip install --upgrade --force-reinstall --no-cache-dir --no-deps transformers timm

Cependant, si le problème persiste, veuillez signaler un bug dès que possible !

NotImplementedError : Un paramètre régional UTF-8 est requis. ANSI détecté

Voir https://github.com/googlecolab/colabtools/issues/3409

Dans une nouvelle cellule, exécutez ce qui suit :

Citer Unsloth

Si vous citez l'utilisation de nos uploads de modèles, utilisez le Bibtex ci-dessous. Ceci est pour Qwen3-30B-A3B-GGUF Q8_K_XL :

Pour citer l'utilisation de notre package Github ou notre travail en général :

Mis à jour

Ce contenu vous a-t-il été utile ?