# Ollama への保存

保存方法の完全な手順については、以下のガイドを参照してください [Ollama](https://github.com/ollama/ollama):

{% content-ref url="../../meru/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama" %}
[tutorial-how-to-finetune-llama-3-and-use-in-ollama](https://unsloth.ai/docs/jp/meru/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama)
{% endcontent-ref %}

### Google Colabでの保存

ファインチューニングしたモデルは、以下のようにLoRAアダプターという小さな100MBのファイルとして保存できます。モデルをアップロードしたい場合は、代わりにHugging Faceハブにプッシュすることも可能です！Hugging Faceのトークンを次から取得することを忘れないでください： <https://huggingface.co/settings/tokens> そしてトークンを追加してください！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-8c577103f7c4fe883cabaf35c8437307c6501686%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

モデルを保存したら、再びUnslothを使ってモデル自体を実行できます！使用するのは `FastLanguageModel` を再度呼び出して推論を行います！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-1a1be852ca551240bdce47cf99e6ccd7d31c1326%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Ollamaへのエクスポート

最後に、ファインチューニングしたモデルをOllama自体にエクスポートできます！まずColabノートブックにOllamaをインストールする必要があります：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-24f9429ed4a8b3a630dc8f68dcf81555da0a80ee%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

次に、ファインチューニングしたモデルを以下のようにllama.cppのGGUF形式にエクスポートします：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-56991ea7e2685bb9905af9baf2f3f685123dcdd8%2Fimage%20(52).png?alt=media" alt=""><figcaption></figcaption></figure>

変換することを忘れないでください `False` から `True` 1行目だけにして、すべての行をに変更しないでください `True`そうしないと非常に長く待つことになります！通常は最初の行をに設定することを推奨します、 `True`そのため、ファインチューニングしたモデルを迅速ににエクスポートできます `Q8_0` フォーマット（8ビット量子化）。また、人気のあるものとして `q4_k_m`.

にアクセスして、 <https://github.com/ggerganov/llama.cpp> GGUFについて詳しく学んでください。必要であればGGUFへのエクスポート方法を手動で説明した手順も用意しています： <https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf>

以下のような長いテキストのリストが表示されます — 5〜10分お待ちください！！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-271b392fdafd0e7d01c525d7a11a97ee5c34b713%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

そして最後に、最終的には以下のようになります：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-a554bd388fd0394dd8cdef85fd9d208bfd7feee7%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

次に、Ollama自体をバックグラウンドで実行する必要があります。私たちは `subprocess` を使用します。Colabは非同期呼び出しを好まないためですが、通常は単にターミナル／コマンドプロンプトで `ollama serve` を実行します。

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-e431609dfc5c742f0b5ab2388dbbd0d8e15c7670%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### 自動 `モデルファイル` 作成

Unslothが提供するトリックは、私たちが自動的に `モデルファイル` を作成することです。これはOllamaが要求するものです！これは設定のリストで、ファインチューニングプロセスで使用したチャットテンプレートも含まれています！また、生成された `モデルファイル` を以下のように出力することもできます：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-6945ba10a2e25cfc198848c0e863001375c32c4c%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

その後、私たちはOllama互換のモデルを作成するようOllamaに依頼します。使用するのは `モデルファイル`

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-d431a64613b39d913d1780c22cde37edc6564272%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Ollama Inference

です。そして、ローカルマシン上／Colabの無料ノートブックでバックグラウンドで実行されているOllamaサーバー自体を呼び出して推論を行うことができます。黄色の下線部分は編集できることを忘れないでください。

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-49b93efa192fdd741f3ac8484cef8c3fd7415283%2FInference.png?alt=media" alt=""><figcaption></figcaption></figure>

### Unslothでの実行はうまくいきますが、エクスポートしてOllamaで実行すると結果が悪い

モデルがUnsloth上では正常に動作して良い結果を出すのに、Ollamaのような他のプラットフォームで使用すると結果が悪くなったり、意味のない出力や終わりのない生成が発生することがあります *または* 繰り返し出&#x529B;**.**

* このエラーの最も一般的な原因は、 <mark style="background-color:blue;">**誤ったチャットテンプレート**</mark>**.** です。Unslothでモデルを訓練したときに使用したのと同じチャットテンプレートを、llama.cppやOllamaなど別のフレームワークで実行する際にも必ず使用することが重要です。保存されたモデルから推論する場合、正しいテンプレートを適用することが不可欠です。
* 正しい `eos トークン`を使用する必要があります。そうしないと、長い生成で意味のない出力が出ることがあります。
* また、推論エンジンが不要な「シーケンス開始」トークンを追加している（あるいは逆に欠如している）ことが原因の可能性もあるため、両方の仮説を確認してください！
* <mark style="background-color:green;">**チャットテンプレートを強制する私たちの会話用ノートブックを使用してください — これでほとんどの問題が解決します。**</mark>
  * Qwen-3 14B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Gemma-3 4B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Llama-3.2 3B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Phi-4 14B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Mistral v0.3 7B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **その他のノートブックは私たちの** [**ノートブックのドキュメント**](https://unsloth.ai/docs/jp/meru/unsloth-notebooks)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/ji-ben/inference-and-deployment/saving-to-ollama.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
