# Enregistrement pour Ollama

Consultez notre guide ci-dessous pour le processus complet sur la façon d'enregistrer sur [Ollama](https://github.com/ollama/ollama):

{% content-ref url="../../commencer/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama" %}
[tutorial-how-to-finetune-llama-3-and-use-in-ollama](https://unsloth.ai/docs/fr/commencer/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama)
{% endcontent-ref %}

### Enregistrement sur Google Colab

Vous pouvez enregistrer le modèle affiné en tant que petit fichier de 100 Mo appelé adaptateur LoRA comme ci-dessous. Vous pouvez aussi le pousser sur le hub Hugging Face si vous souhaitez téléverser votre modèle ! N'oubliez pas d'obtenir un token Hugging Face via : <https://huggingface.co/settings/tokens> et ajoutez votre token !

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-8c577103f7c4fe883cabaf35c8437307c6501686%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

Après avoir enregistré le modèle, nous pouvons à nouveau utiliser Unsloth pour exécuter le modèle lui-même ! Utilisez `FastLanguageModel` à nouveau pour l'appeler pour l'inférence !

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-1a1be852ca551240bdce47cf99e6ccd7d31c1326%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Exportation vers Ollama

Enfin nous pouvons exporter notre modèle affiné vers Ollama lui-même ! D'abord nous devons installer Ollama dans le notebook Colab :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-24f9429ed4a8b3a630dc8f68dcf81555da0a80ee%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

Ensuite nous exportons le modèle affiné vers les formats GGUF de llama.cpp comme ci-dessous :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-56991ea7e2685bb9905af9baf2f3f685123dcdd8%2Fimage%20(52).png?alt=media" alt=""><figcaption></figcaption></figure>

Rappel de convertir `False` en `True` pour 1 ligne, et ne pas changer chaque ligne en `True`, sinon vous attendrez très longtemps ! Nous suggérons normalement que la première ligne soit définie sur `True`, afin que nous puissions exporter rapidement le modèle affiné vers `Q8_0` format (quantification 8 bits). Nous vous permettons également d'exporter vers toute une liste de méthodes de quantification, l'une des plus populaires étant `q4_k_m`.

Rendez-vous sur <https://github.com/ggerganov/llama.cpp> pour en savoir plus sur GGUF. Nous avons aussi des instructions manuelles sur la façon d'exporter vers GGUF si vous le souhaitez ici : <https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf>

Vous verrez une longue liste de textes comme ci-dessous - veuillez patienter 5 à 10 minutes !!

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-271b392fdafd0e7d01c525d7a11a97ee5c34b713%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

Et enfin, tout à la fin, cela ressemblera à ceci :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-a554bd388fd0394dd8cdef85fd9d208bfd7feee7%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

Ensuite, nous devons exécuter Ollama lui-même en arrière-plan. Nous utilisons `subprocess` parce que Colab n'aime pas les appels asynchrones, mais normalement on exécute simplement `ollama serve` dans le terminal / invite de commande.

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-e431609dfc5c742f0b5ab2388dbbd0d8e15c7670%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Automatique `Fichier de modèle` création

L'astuce fournie par Unsloth est que nous créons automatiquement un `Fichier de modèle` que Ollama nécessite ! Il s'agit simplement d'une liste de paramètres et inclut le modèle de chat que nous avons utilisé pour le processus d'affinage ! Vous pouvez aussi afficher le `Fichier de modèle` généré comme ci-dessous :

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-6945ba10a2e25cfc198848c0e863001375c32c4c%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

Nous demandons ensuite à Ollama de créer un modèle compatible avec Ollama, en utilisant le `Fichier de modèle`

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-d431a64613b39d913d1780c22cde37edc6564272%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Inference Ollama

Et nous pouvons maintenant appeler le modèle pour l'inférence si vous voulez appeler le serveur Ollama lui-même qui s'exécute sur votre machine locale / dans le notebook Colab gratuit en arrière-plan. N'oubliez pas que vous pouvez modifier la partie soulignée en jaune.

<figure><img src="https://550366147-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-49b93efa192fdd741f3ac8484cef8c3fd7415283%2FInference.png?alt=media" alt=""><figcaption></figcaption></figure>

### Fonctionne bien dans Unsloth, mais après exportation et exécution sur Ollama, les résultats sont médiocres

Vous pouvez parfois rencontrer un problème où votre modèle s'exécute et produit de bons résultats sur Unsloth, mais lorsque vous l'utilisez sur une autre plateforme comme Ollama, les résultats sont médiocres ou vous pouvez obtenir des charabias, des générations sans fin/infinies *ou* sorties répétée&#x73;**.**

* La cause la plus courante de cette erreur est l'utilisation d'un <mark style="background-color:blue;">**modèle de chat incorrect**</mark>**.** Il est essentiel d'utiliser le MÊME modèle de chat qui a été utilisé lors de l'entraînement du modèle dans Unsloth et plus tard lorsque vous l'exécutez dans un autre framework, tel que llama.cpp ou Ollama. Lors de l'inférence à partir d'un modèle enregistré, il est crucial d'appliquer le bon modèle.
* Vous devez utiliser le bon `jeton eos`. Si ce n'est pas le cas, vous pourriez obtenir du charabia sur des générations plus longues.
* Cela peut aussi être dû au fait que votre moteur d'inférence ajoute un jeton « début de séquence » inutile (ou au contraire l'absence de celui-ci) ; assurez-vous donc de vérifier les deux hypothèses !
* <mark style="background-color:green;">**Utilisez nos notebooks conversationnels pour forcer le modèle de chat - cela résoudra la plupart des problèmes.**</mark>
  * Notebook conversationnel Qwen-3 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Notebook conversationnel Gemma-3 4B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Notebook conversationnel Llama-3.2 3B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Notebook conversationnel Phi-4 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Notebook conversationnel Mistral v0.3 7B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **Plus de notebooks dans notre** [**docs des notebooks**](https://unsloth.ai/docs/fr/commencer/unsloth-notebooks)
