# Enregistrement vers Ollama Consultez notre guide ci-dessous pour le processus complet sur la façon d'enregistrer sur [Ollama](https://github.com/ollama/ollama): {% content-ref url="/pages/9418759bd903302ac509b6da96465b4bb2e40cfe" %} [Tutorial: Finetune Llama-3 and Use In Ollama](/docs/fr/commencer/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama.md) {% endcontent-ref %} ### Enregistrement sur Google Colab Vous pouvez enregistrer le modèle affiné en tant que petit fichier de 100 Mo appelé adaptateur LoRA comme ci-dessous. Vous pouvez aussi le pousser sur le hub Hugging Face si vous souhaitez téléverser votre modèle ! N'oubliez pas d'obtenir un token Hugging Face via : et ajoutez votre token !

Après avoir enregistré le modèle, nous pouvons à nouveau utiliser Unsloth pour exécuter le modèle lui-même ! Utilisez `FastLanguageModel` à nouveau pour l'appeler pour l'inférence !

### Exportation vers Ollama Enfin nous pouvons exporter notre modèle affiné vers Ollama lui-même ! D'abord nous devons installer Ollama dans le notebook Colab :

Ensuite nous exportons le modèle affiné vers les formats GGUF de llama.cpp comme ci-dessous :

Rappel de convertir `False` en `True` pour 1 ligne, et ne pas changer chaque ligne en `True`, sinon vous attendrez très longtemps ! Nous suggérons normalement que la première ligne soit définie sur `True`, afin que nous puissions exporter rapidement le modèle affiné vers `Q8_0` format (quantification 8 bits). Nous vous permettons également d'exporter vers toute une liste de méthodes de quantification, l'une des plus populaires étant `q4_k_m`. Rendez-vous sur pour en savoir plus sur GGUF. Nous avons aussi des instructions manuelles sur la façon d'exporter vers GGUF si vous le souhaitez ici : Vous verrez une longue liste de textes comme ci-dessous - veuillez patienter 5 à 10 minutes !!

Et enfin, tout à la fin, cela ressemblera à ceci :

Ensuite, nous devons exécuter Ollama lui-même en arrière-plan. Nous utilisons `subprocess` parce que Colab n'aime pas les appels asynchrones, mais normalement on exécute simplement `ollama serve` dans le terminal / invite de commande.

### Automatique `Fichier de modèle` création L'astuce fournie par Unsloth est que nous créons automatiquement un `Fichier de modèle` que Ollama nécessite ! Il s'agit simplement d'une liste de paramètres et inclut le modèle de chat que nous avons utilisé pour le processus d'affinage ! Vous pouvez aussi afficher le `Fichier de modèle` généré comme ci-dessous :

Nous demandons ensuite à Ollama de créer un modèle compatible avec Ollama, en utilisant le `Fichier de modèle`

### Inference Ollama Et nous pouvons maintenant appeler le modèle pour l'inférence si vous voulez appeler le serveur Ollama lui-même qui s'exécute sur votre machine locale / dans le notebook Colab gratuit en arrière-plan. N'oubliez pas que vous pouvez modifier la partie soulignée en jaune.

### Fonctionne bien dans Unsloth, mais après exportation et exécution sur Ollama, les résultats sont médiocres Vous pouvez parfois rencontrer un problème où votre modèle s'exécute et produit de bons résultats sur Unsloth, mais lorsque vous l'utilisez sur une autre plateforme comme Ollama, les résultats sont médiocres ou vous pouvez obtenir des charabias, des générations sans fin/infinies *ou* sorties répétées**.** * La cause la plus courante de cette erreur est l'utilisation d'un **modèle de chat incorrect****.** Il est essentiel d'utiliser le MÊME modèle de chat qui a été utilisé lors de l'entraînement du modèle dans Unsloth et plus tard lorsque vous l'exécutez dans un autre framework, tel que llama.cpp ou Ollama. Lors de l'inférence à partir d'un modèle enregistré, il est crucial d'appliquer le bon modèle. * Vous devez utiliser le bon `jeton eos`. Si ce n'est pas le cas, vous pourriez obtenir du charabia sur des générations plus longues. * Cela peut aussi être dû au fait que votre moteur d'inférence ajoute un jeton « début de séquence » inutile (ou au contraire l'absence de celui-ci) ; assurez-vous donc de vérifier les deux hypothèses ! * **Utilisez nos notebooks conversationnels pour forcer le modèle de chat - cela résoudra la plupart des problèmes.** * Notebook conversationnel Qwen-3 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb) * Notebook conversationnel Gemma-3 4B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb) * Notebook conversationnel Llama-3.2 3B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb) * Notebook conversationnel Phi-4 14B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb) * Notebook conversationnel Mistral v0.3 7B [**Ouvrir dans Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb) * **Plus de notebooks dans notre** [**docs des notebooks**](/docs/fr/commencer/unsloth-notebooks.md) --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/fr/bases/inference-and-deployment/saving-to-ollama.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.