> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/notions-de-base/inference-and-deployment/saving-to-ollama.md).

# Enregistrer des modèles au format Ollama

Consultez notre guide ci-dessous pour le processus complet sur la façon d’enregistrer des modèles sur [Ollama](https://github.com/ollama/ollama):

{% content-ref url="/pages/9418759bd903302ac509b6da96465b4bb2e40cfe" %}
[Tutorial: Finetune Llama-3 and Use In Ollama](/docs/fr/commencer/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama.md)
{% endcontent-ref %}

### Enregistrement sur Google Colab

Vous pouvez enregistrer le modèle affiné sous la forme d’un petit fichier de 100 Mo appelé adaptateur LoRA, comme ci-dessous. Vous pouvez aussi le pousser vers le hub Hugging Face si vous souhaitez téléverser votre modèle ! N’oubliez pas d’obtenir un jeton Hugging Face via : <https://huggingface.co/settings/tokens> et ajoutez votre jeton !

<figure><img src="/files/4fbc661794a2d446685157ff6257b1a7c1dea4cc" alt=""><figcaption></figcaption></figure>

Après avoir enregistré le modèle, nous pouvons à nouveau utiliser Unsloth pour exécuter le modèle lui-même ! Utilisez `FastLanguageModel` à nouveau pour l’appeler en inférence !

<figure><img src="/files/cd80e7f5aa196be15494bfe566b3f0059ffaa9d9" alt=""><figcaption></figcaption></figure>

### Exporter vers Ollama

Enfin, nous pouvons exporter notre modèle affiné vers Ollama lui-même ! D’abord, nous devons installer Ollama dans le notebook Colab :

<figure><img src="/files/6302de6f97b5c443a21e8a7ea40314d15b26a4af" alt=""><figcaption></figcaption></figure>

Ensuite, nous exportons le modèle affiné que nous avons vers les formats GGUF de llama.cpp comme ci-dessous :

<figure><img src="/files/b721fc736c71e15c472daad29987e08790e166e2" alt=""><figcaption></figcaption></figure>

Rappel de convertir `False` en `True` pour 1 ligne, et ne changez pas chaque ligne en `True`, sinon vous attendrez très longtemps ! Nous suggérons normalement de définir la première ligne sur `True`, afin que nous puissions exporter rapidement le modèle affiné vers `Q8_0` format (quantification 8 bits). Nous vous permettons également d’exporter vers toute une liste de méthodes de quantification, l’une des plus populaires étant `q4_k_m`.

Rendez-vous sur <https://github.com/ggml-org/llama.cpp> pour en savoir plus sur GGUF. Nous avons aussi des instructions manuelles sur la façon d’exporter vers GGUF si vous le souhaitez ici : <https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf>

Vous verrez une longue liste de texte comme ci-dessous — veuillez patienter 5 à 10 minutes !!

<figure><img src="/files/bb85eaaf10231baedb8b2c90ed33668a79354123" alt=""><figcaption></figcaption></figure>

Et enfin, tout à la fin, cela ressemblera à ceci :

<figure><img src="/files/2ce5fc946d92d4cbb3fd97f58f041074adf3ab05" alt=""><figcaption></figcaption></figure>

Ensuite, nous devons lancer Ollama lui-même en arrière-plan. Nous utilisons `subprocess` car Colab n’aime pas les appels asynchrones, mais normalement on exécute simplement `ollama serve` dans le terminal / l’invite de commande.

<figure><img src="/files/0ca372f582764683d42ff70f7755468cd338a707" alt=""><figcaption></figcaption></figure>

### Création `automatique de` Modelfile

L’astuce qu’Unsloth fournit est que nous créons automatiquement un `automatique de` que Ollama exige ! C’est simplement une liste de paramètres et elle inclut le modèle de chat que nous avons utilisé pour le processus d’affinage ! Vous pouvez aussi afficher le `automatique de` généré comme ci-dessous :

<figure><img src="/files/2558e3b919e6c45dc14f3b756b73660a17e61c62" alt=""><figcaption></figcaption></figure>

Nous demandons ensuite à Ollama de créer un modèle compatible avec Ollama, en utilisant le `automatique de`

<figure><img src="/files/d304a8e448b5ef46626b0f8940fe2256e568abb6" alt=""><figcaption></figcaption></figure>

### Inférence Ollama

Et nous pouvons maintenant appeler le modèle en inférence si vous voulez appeler le serveur Ollama lui-même, qui s’exécute sur votre machine locale / dans le notebook Colab gratuit en arrière-plan. N’oubliez pas que vous pouvez modifier la partie soulignée en jaune.

<figure><img src="/files/5b866f3f4ae9f3682162272c274e3fc1cc02b63a" alt=""><figcaption></figcaption></figure>

### L’exécution dans Unsloth fonctionne bien, mais après exportation et exécution sur Ollama, les résultats sont médiocres

Vous pouvez parfois rencontrer un problème où votre modèle s’exécute et produit de bons résultats dans Unsloth, mais lorsque vous l’utilisez sur une autre plateforme comme Ollama, les résultats sont médiocres ou vous pouvez obtenir du charabia, des générations sans fin/infinies *ou* des sorties répétée&#x73;**.**

* La cause la plus fréquente de cette erreur est l’utilisation d’un <mark style="background-color:blue;">**mauvais modèle de chat**</mark>**.** Il est essentiel d’utiliser le MÊME modèle de chat que celui utilisé lors de l’entraînement du modèle dans Unsloth, puis lorsque vous l’exécutez dans un autre framework, tel que llama.cpp ou Ollama. Lors de l’inférence à partir d’un modèle enregistré, il est crucial d’appliquer le bon modèle.
* Vous devez utiliser le bon `jeton eos`. Sinon, vous pourriez obtenir du charabia lors de générations plus longues.
* Cela peut aussi être dû au fait que votre moteur d’inférence ajoute un jeton inutile de « début de séquence » (ou, au contraire, à son absence), alors assurez-vous de vérifier les deux hypothèses !
* <mark style="background-color:green;">**Utilisez nos notebooks conversationnels pour imposer le modèle de chat — cela corrigera la plupart des problèmes.**</mark>
  * Notebook conversationnel Qwen-3 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Notebook conversationnel Gemma-3 4B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Notebook conversationnel Llama-3.2 3B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Notebook conversationnel Phi-4 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Notebook conversationnel Mistral v0.3 7B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **Plus de notebooks dans notre** [**documentation des notebooks**](/docs/fr/commencer/unsloth-notebooks.md)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://unsloth.ai/docs/fr/notions-de-base/inference-and-deployment/saving-to-ollama.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
