# Dépannage et FAQ

Si vous rencontrez toujours des problèmes avec les versions ou les dépendances, veuillez utiliser notre [image Docker](/docs/fr/commencer/install/docker.md) qui contiendra tout préinstallé.

{% hint style="success" %}
**Essayez toujours de mettre à jour Unsloth si vous rencontrez des problèmes.**

`pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo`
{% endhint %}

### Le fine-tuning d’un nouveau modèle non pris en charge par Unsloth ?

Unsloth fonctionne avec tout modèle pris en charge par `transformers`. Si un modèle n’est pas dans nos téléversements ou ne fonctionne pas immédiatement, il est généralement quand même pris en charge ; certains modèles plus récents peuvent simplement nécessiter un petit ajustement manuel en raison de nos optimisations.

Dans la plupart des cas, vous pouvez activer la compatibilité en définissant `trust_remote_code=True` dans votre script de fine-tuning. Voici un exemple utilisant [DeepSeek-OCR](/docs/fr/modeles/tutorials/deepseek-ocr-how-to-run-and-fine-tune.md):

<pre class="language-python" data-expandable="true"><code class="lang-python">from huggingface_hub import snapshot_download
snapshot_download("unsloth/DeepSeek-OCR", local_dir = "deepseek_ocr")
model, tokenizer = FastVisionModel.from_pretrained(
    "./deepseek_ocr",
    load_in_4bit = False, # Utilisez 4bit pour réduire l’utilisation de la mémoire. False pour LoRA 16 bits.
    auto_model = AutoModel,
    <a data-footnote-ref href="#user-content-fn-1">trust_remote_code = True</a>, # Activer pour prendre en charge les nouveaux modèles
    unsloth_force_compile = True,
    use_gradient_checkpointing = "unsloth", # True ou "unsloth" pour un long contexte
)
</code></pre>

### L’exécution dans Unsloth fonctionne bien, mais après l’exportation et l’exécution sur d’autres plateformes, les résultats sont médiocres

Il peut parfois arriver que votre modèle s’exécute et produise de bons résultats dans Unsloth, mais que lorsque vous l’utilisez sur une autre plateforme comme Ollama ou vLLM, les résultats soient médiocres, ou que vous obteniez du charabia, des générations sans fin/infinies *ou* sorties répétée&#x73;**.**

* La cause la plus fréquente de cette erreur est l’utilisation d’un <mark style="background-color:blue;">**mauvais modèle de chat**</mark>**.** Il est essentiel d’utiliser le MÊME modèle de chat que celui utilisé lors de l’entraînement du modèle dans Unsloth, puis lors de son exécution dans un autre framework, tel que llama.cpp ou Ollama. Lors de l’inférence à partir d’un modèle enregistré, il est crucial d’appliquer le bon modèle.
* Cela peut aussi être dû au fait que votre moteur d’inférence ajoute un jeton "début de séquence" inutile (ou, au contraire, l’absence de celui-ci) ; assurez-vous donc de vérifier les deux hypothèses !
* <mark style="background-color:green;">**Utilisez nos notebooks conversationnels pour forcer le modèle de chat - cela résoudra la plupart des problèmes.**</mark>
  * Notebook conversationnel Qwen-3 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Notebook conversationnel Gemma-3 4B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Notebook conversationnel Llama-3.2 3B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Notebook conversationnel Phi-4 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Notebook conversationnel Mistral v0.3 7B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **Plus de notebooks dans nos** [**docs des notebooks**](/docs/fr/commencer/unsloth-notebooks.md)

### Enregistrement en GGUF / plantages vLLM 16 bits

Vous pouvez essayer de réduire l’utilisation maximale du GPU pendant l’enregistrement en modifiant `maximum_memory_usage`.

La valeur par défaut est `model.save_pretrained(..., maximum_memory_usage = 0.75)`. Réduisez-la par exemple à 0.5 pour utiliser 50 % de la mémoire de crête du GPU, ou moins. Cela peut réduire les plantages OOM pendant l’enregistrement.

### Comment enregistrer manuellement en GGUF ?

Enregistrez d’abord votre modèle en 16 bits via :

```python
model.save_pretrained_merged("merged_model", tokenizer, save_method = "merged_16bit",)
```

Compilez llama.cpp à partir des sources comme ci-dessous :

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp
```

Ensuite, enregistrez le modèle en F16 :

```bash
python llama.cpp/convert_hf_to_gguf.py merged_model \\
    --outfile model-F16.gguf --outtype f16 \\
    --split-max-size 50G
```

```bash
# Pour BF16 :
python llama.cpp/convert_hf_to_gguf.py merged_model \\
    --outfile model-BF16.gguf --outtype bf16 \\
    --split-max-size 50G
    
# Pour Q8_0 :
python llama.cpp/convert_hf_to_gguf.py merged_model \\
    --outfile model-Q8_0.gguf --outtype q8_0 \\
    --split-max-size 50G
```

### Pourquoi Q8\_K\_XL est-il plus lent que GGUF Q8\_0 ?

Sur les appareils Mac, il semble que BF16 puisse être plus lent que F16. Q8\_K\_XL remonte certaines couches en BF16, d’où le ralentissement. Nous modifions activement notre processus de conversion pour faire de F16 le choix par défaut pour Q8\_K\_XL afin de réduire les pertes de performances.

### Comment faire l’évaluation

Pour configurer l’évaluation dans votre exécution d’entraînement, vous devez d’abord diviser votre ensemble de données en un ensemble d’entraînement et un ensemble de test. Vous devriez <mark style="background-color:green;">**toujours mélanger la sélection de l’ensemble de données**</mark>, sinon votre évaluation est fausse !

```python
new_dataset = dataset.train_test_split(
    test_size = 0.01, # 1 % pour la taille de test peut aussi être un entier pour le # de lignes
    shuffle = True, # Doit toujours être défini sur True !
    seed = 3407,
)

train_dataset = new_dataset["train"] # Ensemble de données pour l’entraînement
eval_dataset = new_dataset["test"] # Ensemble de données pour l’évaluation
```

Ensuite, nous pouvons définir les arguments d’entraînement pour activer l’évaluation. Rappel : l’évaluation peut être très, très lente, surtout si vous définissez `eval_steps = 1` ce qui signifie que vous évaluez à chaque étape. Si c’est le cas, essayez de réduire la taille de eval\_dataset à, par exemple, 100 lignes ou quelque chose comme ça.

```python
from trl import SFTTrainer, SFTConfig
trainer = SFTTrainer(
    args = SFTConfig(
        fp16_full_eval = True,         # Définissez ceci pour réduire l’utilisation de la mémoire
        per_device_eval_batch_size = 2,# L’augmenter utilisera plus de mémoire
        eval_accumulation_steps = 4,   # Vous pouvez augmenter cela à la place de la taille de lot
        eval_strategy = "steps",       # Exécute l’évaluation toutes les quelques étapes ou époques.
        eval_steps = 1,                # Nombre d’évaluations effectuées par # d’étapes d’entraînement
    ),
    train_dataset = new_dataset["train"],
    eval_dataset = new_dataset["test"],
    ...
)
trainer.train()
```

### Boucle d’évaluation - Mémoire insuffisante ou plantage.

Un problème courant lorsque vous avez un OOM vient du fait que vous avez défini une taille de lot trop élevée. Réglez-la à une valeur inférieure à 2 pour utiliser moins de VRAM. Utilisez également `fp16_full_eval=True` pour utiliser float16 lors de l’évaluation, ce qui divise la mémoire par 2.

Commencez par diviser votre ensemble de données d’entraînement en un ensemble d’entraînement et un ensemble de test. Définissez les paramètres du trainer pour l’évaluation comme suit :

```python
new_dataset = dataset.train_test_split(test_size = 0.01)

from trl import SFTTrainer, SFTConfig
trainer = SFTTrainer(
    args = SFTConfig(
        fp16_full_eval = True,
        per_device_eval_batch_size = 2,
        eval_accumulation_steps = 4,
        eval_strategy = "steps",
        eval_steps = 1,
    ),
    train_dataset = new_dataset["train"],
    eval_dataset = new_dataset["test"],
    ...
)
```

Cela n’entraînera aucun OOM et rendra le processus un peu plus rapide. Vous pouvez également utiliser `bf16_full_eval=True` pour les machines bf16. Par défaut, Unsloth devrait avoir défini ces indicateurs par défaut à partir de juin 2025.

### Comment faire l’arrêt anticipé ?

Si vous souhaitez arrêter l’exécution du fine-tuning / entraînement parce que la perte d’évaluation ne diminue pas, vous pouvez utiliser l’arrêt anticipé, qui interrompt le processus d’entraînement. Utilisez `EarlyStoppingCallback`.

Comme d’habitude, configurez votre trainer et votre ensemble de données d’évaluation. Ce qui suit est utilisé pour arrêter l’exécution d’entraînement si le `eval_loss` (la perte d’évaluation) ne diminue pas après environ 3 étapes.

```python
from trl import SFTConfig, SFTTrainer
trainer = SFTTrainer(
    args = SFTConfig(
        fp16_full_eval = True,
        per_device_eval_batch_size = 2,
        eval_accumulation_steps = 4,
        output_dir = "training_checkpoints", # emplacement des points de contrôle enregistrés pour l’arrêt anticipé
        save_strategy = "steps",             # enregistrer le modèle toutes les N étapes
        save_steps = 10,                     # nombre d’étapes avant d’enregistrer le modèle
        save_total_limit = 3,                # conserver seulement 3 points de contrôle enregistrés pour économiser de l’espace disque
        eval_strategy = "steps",             # effectuer l’évaluation toutes les N étapes
        eval_steps = 10,                     # nombre d’étapes avant d’effectuer l’évaluation
        load_best_model_at_end = True,       # DOIT ÊTRE UTILISÉ pour l’arrêt anticipé
        metric_for_best_model = "eval_loss", # métrique sur laquelle nous voulons appliquer l’arrêt anticipé
        greater_is_better = False,           # plus la perte d’évaluation est faible, mieux c’est
    ),
    model = model,
    tokenizer = tokenizer,
    train_dataset = new_dataset["train"],
    eval_dataset = new_dataset["test"],
)
```

Ensuite, nous ajoutons le callback, qui peut aussi être personnalisé :

```python
from transformers import EarlyStoppingCallback
early_stopping_callback = EarlyStoppingCallback(
    early_stopping_patience = 3,     # Nombre d’étapes d’attente si la perte d’évaluation ne diminue pas
                                     # Par exemple, la perte peut augmenter, mais diminuer après 3 étapes
    early_stopping_threshold = 0.0,  # Peut être défini plus haut - définit de combien la perte doit diminuer avant
                                     # que nous considérions l’arrêt anticipé. Par exemple, 0.01 signifie que si la perte était
                                     # de 0.02 puis 0.01, nous considérons qu’il faut arrêter l’exécution.
)
trainer.add_callback(early_stopping_callback)
```

Ensuite, entraînez le modèle comme d’habitude via `trainer.train() .`

### Le téléchargement se bloque à 90 à 95 %

Si votre modèle reste bloqué à 90, 95 % pendant longtemps, vous pouvez désactiver certains processus de téléchargement rapide afin de forcer les téléchargements à être synchrones et d’afficher davantage de messages d’erreur.

Utilisez simplement `UNSLOTH_STABLE_DOWNLOADS=1` avant toute importation d’Unsloth.

```python
import os
os.environ["UNSLOTH_STABLE_DOWNLOADS"] = "1"

from unsloth import FastLanguageModel
```

### RuntimeError : erreur CUDA : assertion déclenchée côté périphérique

Redémarrez et exécutez tout, mais placez cela au début avant toute importation d’Unsloth. Veuillez également déposer un rapport de bug dès que possible, merci !

```python
import os
os.environ["UNSLOTH_COMPILE_DISABLE"] = "1"
os.environ["UNSLOTH_DISABLE_FAST_GENERATION"] = "1"
```

### Tous les labels de votre ensemble de données sont -100. Les pertes d’entraînement seront toutes à 0.

Cela signifie que votre utilisation de `train_on_responses_only` est incorrecte pour ce modèle particulier. train\_on\_responses\_only vous permet de masquer la question de l’utilisateur et d’entraîner votre modèle à produire la réponse de l’assistant avec un poids plus élevé. Cela est connu pour augmenter la précision d’au moins 1 %. Consultez notre [**Guide des hyperparamètres LoRA**](/docs/fr/commencer/fine-tuning-llms-guide/lora-hyperparameters-guide.md) pour plus de détails.

Pour les modèles de type Llama 3.1, 3.2, 3.3, veuillez utiliser ce qui suit :

```python
from unsloth.chat_templates import train_on_responses_only
trainer = train_on_responses_only(
    trainer,
    instruction_part = "<|start_header_id|>user<|end_header_id|>\n\n",
    response_part = "<|start_header_id|>assistant<|end_header_id|>\n\n",
)
```

Pour les modèles Gemma 2, 3. 3n, utilisez ce qui suit :

```python
from unsloth.chat_templates import train_on_responses_only
trainer = train_on_responses_only(
    trainer,
    instruction_part = "<start_of_turn>user\n",
    response_part = "<start_of_turn>model\n",
)
```

### Unsloth est plus lent que prévu ?

Si votre vitesse semble plus lente au début, c’est probablement parce que `torch.compile` prend généralement environ 5 minutes (ou plus) pour se stabiliser et terminer la compilation. Assurez-vous de mesurer le débit **après** qu’il est entièrement chargé, car sur des exécutions plus longues, Unsloth devrait être beaucoup plus rapide.

Pour désactiver, utilisez :

```python
import os
os.environ["UNSLOTH_COMPILE_DISABLE"] = "1"
```

### Certaines poids de Gemma3nForConditionalGeneration n’ont pas été initialisés à partir du point de contrôle du modèle

C’est une erreur critique, car cela signifie que certains poids ne sont pas analysés correctement, ce qui entraînera des sorties incorrectes. Cela peut normalement être corrigé en mettant à niveau Unsloth

`pip install --upgrade --force-reinstall --no-cache-dir --no-deps unsloth unsloth_zoo`

Puis mettez à jour transformers et timm :

`pip install --upgrade --force-reinstall --no-cache-dir --no-deps transformers timm`

Cependant, si le problème persiste, veuillez déposer un rapport de bug dès que possible !

### NotImplementedError : une locale UTF-8 est requise. ANSI obtenu

Voir <https://github.com/googlecolab/colabtools/issues/3409>

Dans une nouvelle cellule, exécutez ce qui suit :

```python
import locale
locale.getpreferredencoding = lambda: "UTF-8"
```

### Citer Unsloth

Si vous citez l’utilisation de nos modèles téléversés, utilisez le BibTeX ci-dessous. Ceci est pour Qwen3-30B-A3B-GGUF Q8\_K\_XL :

```
@misc{unsloth_2025_qwen3_30b_a3b,
  author       = {Unsloth AI and Han-Chen, Daniel and Han-Chen, Michael},
  title        = {Qwen3-30B-A3B-GGUF:Q8\_K\_XL},
  year         = {2025},
  publisher    = {Hugging Face},
  howpublished = {\url{https://huggingface.co/unsloth/Qwen3-30B-A3B-GGUF}}
}
```

Pour citer l’utilisation de notre package Github ou notre travail en général :

```
@misc{unsloth,
  author       = {Unsloth AI and Han-Chen, Daniel and Han-Chen, Michael},
  title        = {Unsloth},
  year         = {2025},
  publisher    = {Github},
  howpublished = {\url{https://github.com/unslothai/unsloth}}
}
```

[^1]: Activez cette ligne de code et voyez si cela fonctionne.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/bases/troubleshooting-and-faqs.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
