# Ollama への保存

保存方法の完全な手順については、以下のガイドを参照してください [Ollama](https://github.com/ollama/ollama):

{% content-ref url="../../meru/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama" %}
[tutorial-how-to-finetune-llama-3-and-use-in-ollama](https://unsloth.ai/docs/jp/meru/fine-tuning-llms-guide/tutorial-how-to-finetune-llama-3-and-use-in-ollama)
{% endcontent-ref %}

### Google Colabでの保存

ファインチューニングしたモデルは、以下のようにLoRAアダプターという小さな100MBのファイルとして保存できます。モデルをアップロードしたい場合は、代わりにHugging Faceハブにプッシュすることも可能です！Hugging Faceのトークンを次から取得することを忘れないでください： <https://huggingface.co/settings/tokens> そしてトークンを追加してください！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-8c577103f7c4fe883cabaf35c8437307c6501686%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

モデルを保存したら、再びUnslothを使ってモデル自体を実行できます！使用するのは `FastLanguageModel` を再度呼び出して推論を行います！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-1a1be852ca551240bdce47cf99e6ccd7d31c1326%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Ollamaへのエクスポート

最後に、ファインチューニングしたモデルをOllama自体にエクスポートできます！まずColabノートブックにOllamaをインストールする必要があります：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-24f9429ed4a8b3a630dc8f68dcf81555da0a80ee%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

次に、ファインチューニングしたモデルを以下のようにllama.cppのGGUF形式にエクスポートします：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-56991ea7e2685bb9905af9baf2f3f685123dcdd8%2Fimage%20(52).png?alt=media" alt=""><figcaption></figcaption></figure>

変換することを忘れないでください `False` から `True` 1行目だけにして、すべての行をに変更しないでください `True`そうしないと非常に長く待つことになります！通常は最初の行をに設定することを推奨します、 `True`そのため、ファインチューニングしたモデルを迅速ににエクスポートできます `Q8_0` フォーマット（8ビット量子化）。また、人気のあるものとして `q4_k_m`.

にアクセスして、 <https://github.com/ggerganov/llama.cpp> GGUFについて詳しく学んでください。必要であればGGUFへのエクスポート方法を手動で説明した手順も用意しています： <https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf>

以下のような長いテキストのリストが表示されます — 5〜10分お待ちください！！

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-271b392fdafd0e7d01c525d7a11a97ee5c34b713%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

そして最後に、最終的には以下のようになります：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-a554bd388fd0394dd8cdef85fd9d208bfd7feee7%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

次に、Ollama自体をバックグラウンドで実行する必要があります。私たちは `subprocess` を使用します。Colabは非同期呼び出しを好まないためですが、通常は単にターミナル／コマンドプロンプトで `ollama serve` を実行します。

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-e431609dfc5c742f0b5ab2388dbbd0d8e15c7670%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### 自動 `モデルファイル` 作成

Unslothが提供するトリックは、私たちが自動的に `モデルファイル` を作成することです。これはOllamaが要求するものです！これは設定のリストで、ファインチューニングプロセスで使用したチャットテンプレートも含まれています！また、生成された `モデルファイル` を以下のように出力することもできます：

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-6945ba10a2e25cfc198848c0e863001375c32c4c%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

その後、私たちはOllama互換のモデルを作成するようOllamaに依頼します。使用するのは `モデルファイル`

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-d431a64613b39d913d1780c22cde37edc6564272%2Fimage.png?alt=media" alt=""><figcaption></figcaption></figure>

### Ollama Inference

です。そして、ローカルマシン上／Colabの無料ノートブックでバックグラウンドで実行されているOllamaサーバー自体を呼び出して推論を行うことができます。黄色の下線部分は編集できることを忘れないでください。

<figure><img src="https://735611837-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2FxhOjnexMCB3dmuQFQ2Zq%2Fuploads%2Fgit-blob-49b93efa192fdd741f3ac8484cef8c3fd7415283%2FInference.png?alt=media" alt=""><figcaption></figcaption></figure>

### Unslothでの実行はうまくいきますが、エクスポートしてOllamaで実行すると結果が悪い

モデルがUnsloth上では正常に動作して良い結果を出すのに、Ollamaのような他のプラットフォームで使用すると結果が悪くなったり、意味のない出力や終わりのない生成が発生することがあります *または* 繰り返し出&#x529B;**.**

* このエラーの最も一般的な原因は、 <mark style="background-color:blue;">**誤ったチャットテンプレート**</mark>**.** です。Unslothでモデルを訓練したときに使用したのと同じチャットテンプレートを、llama.cppやOllamaなど別のフレームワークで実行する際にも必ず使用することが重要です。保存されたモデルから推論する場合、正しいテンプレートを適用することが不可欠です。
* 正しい `eos トークン`を使用する必要があります。そうしないと、長い生成で意味のない出力が出ることがあります。
* また、推論エンジンが不要な「シーケンス開始」トークンを追加している（あるいは逆に欠如している）ことが原因の可能性もあるため、両方の仮説を確認してください！
* <mark style="background-color:green;">**チャットテンプレートを強制する私たちの会話用ノートブックを使用してください — これでほとんどの問題が解決します。**</mark>
  * Qwen-3 14B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(14B\)-Reasoning-Conversational.ipynb)
  * Gemma-3 4B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Gemma3_\(4B\).ipynb)
  * Llama-3.2 3B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.2_\(1B_and_3B\)-Conversational.ipynb)
  * Phi-4 14B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Phi_4-Conversational.ipynb)
  * Mistral v0.3 7B 会話用ノートブック [**Colabで開く**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Mistral_v0.3_\(7B\)-Conversational.ipynb)
  * **その他のノートブックは私たちの** [**ノートブックのドキュメント**](https://unsloth.ai/docs/jp/meru/unsloth-notebooks)
