Dépannage de l'inférence

Si vous rencontrez des problèmes lors de l'exécution ou de la sauvegarde de votre modèle.

Exécuter dans Unsloth fonctionne bien, mais après exportation et exécution sur d'autres plates-formes, les résultats sont médiocres

Vous pouvez parfois rencontrer un problème où votre modèle s'exécute et produit de bons résultats sur Unsloth, mais lorsque vous l'utilisez sur une autre plate-forme comme Ollama ou vLLM, les résultats sont médiocres ou vous obtenez des charabias, des générations sans fin/infinies ou sorties répétées.

  • La cause la plus courante de cette erreur est l'utilisation d'un modèle de chat incorrect. Il est essentiel d'utiliser le MÊME modèle de chat qui a été utilisé lors de l'entraînement du modèle dans Unsloth et plus tard lorsque vous l'exécutez dans un autre framework, tel que llama.cpp ou Ollama. Lors de l'inférence à partir d'un modèle enregistré, il est crucial d'appliquer le bon modèle.

  • Vous devez utiliser le bon jeton eos. Si ce n'est pas le cas, vous pourriez obtenir du charabia sur des générations plus longues.

  • Cela peut aussi être dû au fait que votre moteur d'inférence ajoute un jeton « début de séquence » inutile (ou au contraire l'absence de celui-ci) ; assurez-vous donc de vérifier les deux hypothèses !

  • Utilisez nos notebooks conversationnels pour forcer le modèle de chat - cela résoudra la plupart des problèmes.

Enregistrement dans safetensors, pas bin format dans Colab

Nous enregistrons dans .bin dans Colab donc c'est environ 4x plus rapide, mais définissez safe_serialization = None pour forcer l'enregistrement au format .safetensors. Donc model.save_pretrained(..., safe_serialization = None) ou model.push_to_hub(..., safe_serialization = None)

Si l'enregistrement au format GGUF ou vLLM 16 bits plante

Vous pouvez essayer de réduire l'utilisation GPU maximale pendant l'enregistrement en modifiant maximum_memory_usage.

La valeur par défaut est model.save_pretrained(..., maximum_memory_usage = 0.75). Réduisez-la à par exemple 0.5 pour utiliser 50 % de la mémoire GPU de pointe ou moins. Cela peut réduire les plantages OOM pendant l'enregistrement.

Mis à jour

Ce contenu vous a-t-il été utile ?