# In Ollama speichern

Siehe unseren Leitfaden unten für den vollständigen Prozess, wie man speichert in [Ollama](https://github.com/ollama/ollama):

{% content-ref url="/pages/3c1de2711fe52945f90b888765c1914adeb1e704" %}
[Tutorial: Finetune Llama-3 and Use In Ollama](/docs/de/loslegen/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama.md)
{% endcontent-ref %}

### Speichern in Google Colab

Sie können das feinabgestimmte Modell als kleine 100MB-Datei namens LoRA-Adapter wie unten speichern. Alternativ können Sie es auch in das Hugging Face Hub hochladen, wenn Sie Ihr Modell bereitstellen möchten! Denken Sie daran, ein Hugging Face-Token zu erhalten über: <https://huggingface.co/settings/tokens> und fügen Sie Ihr Token hinzu!

<figure><img src="/files/31cb7529449b552d7e65bf053ff3acc4ec2e5e67" alt=""><figcaption></figcaption></figure>

Nachdem wir das Modell gespeichert haben, können wir erneut Unsloth verwenden, um das Modell selbst auszuführen! Verwenden Sie `FastLanguageModel` wieder, um es für Inferenz aufzurufen!

<figure><img src="/files/94214239570142a967d03ac535d30cab2f63152f" alt=""><figcaption></figcaption></figure>

### Export nach Ollama

Schließlich können wir unser feinabgestimmtes Modell nach Ollama exportieren! Zuerst müssen wir Ollama im Colab-Notebook installieren:

<figure><img src="/files/b4b8b3def6759167240e6106521b43935a3c85de" alt=""><figcaption></figcaption></figure>

Dann exportieren wir das feinabgestimmte Modell in die GGUF-Formate von llama.cpp wie unten:

<figure><img src="/files/45926b289107a7ecf04772e1e660fdf656bf2418" alt=""><figcaption></figcaption></figure>

Erinnerung, zu konvertieren `Falsch` zu `Wahr` für 1 Zeile, und nicht jede Zeile in `Wahr`, sonst warten Sie sehr lange! Normalerweise empfehlen wir, die erste Zeile auf `Wahr`setzen, damit wir das feinabgestimmte Modell schnell nach `Q8_0` Format (8-Bit-Quantisierung). Wir erlauben Ihnen auch, in eine ganze Liste von Quantisierungsmethoden zu exportieren, wobei eine beliebte Methode `q4_k_m`.

Besuchen Sie <https://github.com/ggerganov/llama.cpp> um mehr über GGUF zu erfahren. Wir haben auch einige Anleitungen, wie man manuell nach GGUF exportiert, falls Sie hier nachlesen möchten: <https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf>

Sie werden eine lange Liste von Text wie unten sehen - bitte warten Sie 5 bis 10 Minuten!!

<figure><img src="/files/7324e69eda760672235dda05d6a02c0c3609ef5e" alt=""><figcaption></figcaption></figure>

Und schließlich sieht es ganz am Ende so aus:

<figure><img src="/files/d5f29531f5f05c0465061858f7a68a44c04cf69f" alt=""><figcaption></figcaption></figure>

Dann müssen wir Ollama selbst im Hintergrund ausführen. Wir verwenden `subprocess` weil Colab asynchrone Aufrufe nicht mag, aber normalerweise führt man einfach `ollama serve` im Terminal / in der Eingabeaufforderung aus.

<figure><img src="/files/59be729262d5c9819674e3e72ef3020453d78947" alt=""><figcaption></figcaption></figure>

### Automatisch `Modell-Datei` Erstellung

Der Trick, den Unsloth bietet, ist, dass wir automatisch eine `Modell-Datei` erstellen, die Ollama benötigt! Dies ist nur eine Liste von Einstellungen und enthält die Chat-Vorlage, die wir für den Fine-Tuning-Prozess verwendet haben! Sie können auch das `Modell-Datei` wie unten generiert ausgeben:

<figure><img src="/files/f76d55cb596503b3bbb5a9bab0a49977dd3ffd04" alt=""><figcaption></figcaption></figure>

Dann bitten wir Ollama, ein Modell zu erstellen, das mit Ollama kompatibel ist, indem wir die `Modell-Datei`

<figure><img src="/files/28d158f6451547a55a6353a23df8eced78a51683" alt=""><figcaption></figcaption></figure>

### Ollama Inference

Und wir können das Modell jetzt für Inferenz aufrufen, wenn Sie den Ollama-Server selbst auf Ihrem eigenen Rechner / im kostenlosen Colab-Notebook im Hintergrund laufen lassen möchten. Denken Sie daran, dass Sie den gelb unterstrichenen Teil bearbeiten können.

<figure><img src="/files/b261b7f73dc9bb8a7af27836c39aff51971ecd62" alt=""><figcaption></figcaption></figure>

### Das Ausführen in Unsloth funktioniert gut, aber nach dem Export & Ausführen auf Ollama sind die Ergebnisse schlecht

Sie könnten manchmal auf ein Problem stoßen, bei dem Ihr Modell in Unsloth gut läuft und gute Ergebnisse liefert, aber wenn Sie es auf einer anderen Plattform wie Ollama verwenden, die Ergebnisse schlecht sind oder Sie Kauderwelsch, endlose/unendliche Generierungen erhalten *oder* wiederholte Ausgabe&#x6E;**.**

* Die häufigste Ursache für diesen Fehler ist die Verwendung einer <mark style="background-color:blue;">**inkorrekten Chat-Vorlage**</mark>**.** Es ist entscheidend, dieselbe Chat-Vorlage zu verwenden, die beim Training des Modells in Unsloth verwendet wurde und später, wenn Sie es in einem anderen Framework wie llama.cpp oder Ollama ausführen. Beim Inferencing aus einem gespeicherten Modell ist es wichtig, die korrekte Vorlage anzuwenden.
* Sie müssen das richtige `eos-Token`. Wenn nicht, erhalten Sie möglicherweise bei längeren Generierungen Kauderwelsch.
* Es kann auch daran liegen, dass Ihre Inferenz-Engine ein unnötiges "Start der Sequenz"-Token hinzufügt (oder im Gegenteil dessen Fehlen), also prüfen Sie bitte beide Hypothesen!
* <mark style="background-color:green;">**Verwenden Sie unsere konversationellen Notebooks, um die Chat-Vorlage zu erzwingen - das behebt die meisten Probleme.**</mark>
  * Qwen-3 14B Konversationelles Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Gemma-3 4B Konversationelles Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Llama-3.2 3B Konversationelles Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Phi-4 14B Konversationelles Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Mistral v0.3 7B Konversationelles Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **Weitere Notebooks in unseren** [**Notebook-Dokumenten**](/docs/de/loslegen/unsloth-notebooks.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/inference-and-deployment/saving-to-ollama.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
