> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/grundlagen/inference-and-deployment/saving-to-ollama.md).

# Modelle in Ollama speichern

Siehe unten in unserem Leitfaden den vollständigen Ablauf, wie man Modelle speichert in [Ollama](https://github.com/ollama/ollama):

{% content-ref url="/pages/3c1de2711fe52945f90b888765c1914adeb1e704" %}
[Tutorial: Finetune Llama-3 and Use In Ollama](/docs/de/loslegen/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama.md)
{% endcontent-ref %}

### Speichern auf Google Colab

Sie können das feinabgestimmte Modell als kleine 100-MB-Datei speichern, genannt LoRA-Adapter, wie unten gezeigt. Stattdessen können Sie es auch auf den Hugging-Face-Hub pushen, wenn Sie Ihr Modell hochladen möchten! Denken Sie daran, sich einen Hugging-Face-Token zu holen über: <https://huggingface.co/settings/tokens> und fügen Sie Ihren Token hinzu!

<figure><img src="/files/31cb7529449b552d7e65bf053ff3acc4ec2e5e67" alt=""><figcaption></figcaption></figure>

Nach dem Speichern des Modells können wir Unsloth erneut verwenden, um das Modell selbst auszuführen! Verwenden Sie `FastLanguageModel` erneut, um es für die Inferenz aufzurufen!

<figure><img src="/files/94214239570142a967d03ac535d30cab2f63152f" alt=""><figcaption></figcaption></figure>

### Export nach Ollama

Schließlich können wir unser feinabgestimmtes Modell direkt nach Ollama exportieren! Zuerst müssen wir Ollama im Colab-Notebook installieren:

<figure><img src="/files/b4b8b3def6759167240e6106521b43935a3c85de" alt=""><figcaption></figcaption></figure>

Dann exportieren wir das feinabgestimmte Modell in die GGUF-Formate von llama.cpp, wie unten gezeigt:

<figure><img src="/files/45926b289107a7ecf04772e1e660fdf656bf2418" alt=""><figcaption></figcaption></figure>

Erinnerung zum Umstellen von `False` auf `True` für 1 Zeile, und nicht jede Zeile auf `True`, sonst werden Sie sehr lange warten! Wir empfehlen normalerweise, die erste Zeile auf `True`, damit wir das feinabgestimmte Modell schnell in das `Q8_0` Format (8-Bit-Quantisierung) exportieren können. Wir ermöglichen Ihnen auch den Export in eine ganze Liste von Quantisierungsmethoden, wobei eine beliebte `q4_k_m`.

Gehen Sie zu <https://github.com/ggml-org/llama.cpp> um mehr über GGUF zu erfahren. Wir haben hier auch einige manuelle Anweisungen, wie Sie bei Bedarf nach GGUF exportieren können: <https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf>

Sie werden eine lange Liste von Text wie unten sehen - bitte warten Sie 5 bis 10 Minuten!!

<figure><img src="/files/7324e69eda760672235dda05d6a02c0c3609ef5e" alt=""><figcaption></figcaption></figure>

Und schließlich wird es ganz am Ende so aussehen wie unten:

<figure><img src="/files/d5f29531f5f05c0465061858f7a68a44c04cf69f" alt=""><figcaption></figcaption></figure>

Dann müssen wir Ollama selbst im Hintergrund ausführen. Wir verwenden `subprocess` weil Colab asynchrone Aufrufe nicht mag, aber normalerweise führt man einfach `ollama serve` im Terminal / in der Eingabeaufforderung aus.

<figure><img src="/files/59be729262d5c9819674e3e72ef3020453d78947" alt=""><figcaption></figcaption></figure>

### Automatische `Modelfile` Erstellung

Der Trick, den Unsloth bietet, ist, dass wir automatisch eine `Modelfile` erstellen, die Ollama benötigt! Dies ist einfach eine Liste von Einstellungen und enthält die Chat-Vorlage, die wir für den Feinabstimmungsprozess verwendet haben! Sie können auch die `Modelfile` wie unten gezeigt ausgeben:

<figure><img src="/files/f76d55cb596503b3bbb5a9bab0a49977dd3ffd04" alt=""><figcaption></figcaption></figure>

Dann bitten wir Ollama, ein mit Ollama kompatibles Modell zu erstellen, indem wir die `Modelfile`

<figure><img src="/files/28d158f6451547a55a6353a23df8eced78a51683" alt=""><figcaption></figcaption></figure>

### Ollama Inferenz

Und jetzt können wir das Modell bei Bedarf für die Inferenz aufrufen, also Ollama selbst ansprechen, das auf Ihrem eigenen lokalen Rechner / im kostenlosen Colab-Notebook im Hintergrund läuft. Denken Sie daran, dass Sie den gelb unterstrichenen Teil bearbeiten können.

<figure><img src="/files/b261b7f73dc9bb8a7af27836c39aff51971ecd62" alt=""><figcaption></figcaption></figure>

### Die Ausführung in Unsloth funktioniert gut, aber nach dem Export und der Ausführung in Ollama sind die Ergebnisse schlecht

Es kann manchmal vorkommen, dass Ihr Modell in Unsloth ausgeführt wird und gute Ergebnisse liefert, aber wenn Sie es auf einer anderen Plattform wie Ollama verwenden, sind die Ergebnisse schlecht oder Sie erhalten Kauderwelsch, endlose/unendliche Generierungen *oder* wiederholte Ausgabe&#x6E;**.**

* Die häufigste Ursache für diesen Fehler ist die Verwendung einer <mark style="background-color:blue;">**falschen Chat-Vorlage**</mark>**.** Es ist entscheidend, dieselbe Chat-Vorlage zu verwenden, die beim Training des Modells in Unsloth verwendet wurde, und später erneut, wenn Sie es in einem anderen Framework wie llama.cpp oder Ollama ausführen. Beim Inferenzieren mit einem gespeicherten Modell ist es entscheidend, die richtige Vorlage anzuwenden.
* Sie müssen das richtige `eos-Token`. Wenn nicht, kann es bei längeren Generierungen zu Kauderwelsch kommen.
* Es kann auch daran liegen, dass Ihre Inferenz-Engine ein unnötiges "Start-of-Sequence"-Token hinzufügt (oder umgekehrt daran, dass es fehlt), also prüfen Sie sicherheitshalber beide Hypothesen!
* <mark style="background-color:green;">**Verwenden Sie unsere konversationellen Notebooks, um die Chat-Vorlage zu erzwingen - das behebt die meisten Probleme.**</mark>
  * Qwen-3 14B Konversations-Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Gemma-3 4B Konversations-Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Llama-3.2 3B Konversations-Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Phi-4 14B Konversations-Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Mistral v0.3 7B Konversations-Notebook [**In Colab öffnen**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **Weitere Notebooks in unseren** [**Notebook-Dokumentationen**](/docs/de/loslegen/unsloth-notebooks.md)


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/inference-and-deployment/saving-to-ollama.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
