Ollama への保存
保存方法の完全な手順については、以下のガイドを参照してください Ollama:
🦙Tutorial: Finetune Llama-3 and Use In OllamaGoogle Colabでの保存
ファインチューニングしたモデルは、以下のようにLoRAアダプターという小さな100MBのファイルとして保存できます。モデルをアップロードしたい場合は、代わりにHugging Faceハブにプッシュすることも可能です!Hugging Faceのトークンを次から取得することを忘れないでください: https://huggingface.co/settings/tokens そしてトークンを追加してください!

モデルを保存したら、再びUnslothを使ってモデル自体を実行できます!使用するのは FastLanguageModel を再度呼び出して推論を行います!

Ollamaへのエクスポート
最後に、ファインチューニングしたモデルをOllama自体にエクスポートできます!まずColabノートブックにOllamaをインストールする必要があります:

次に、ファインチューニングしたモデルを以下のようにllama.cppのGGUF形式にエクスポートします:

変換することを忘れないでください False から True 1行目だけにして、すべての行をに変更しないでください Trueそうしないと非常に長く待つことになります!通常は最初の行をに設定することを推奨します、 Trueそのため、ファインチューニングしたモデルを迅速ににエクスポートできます Q8_0 フォーマット(8ビット量子化)。また、人気のあるものとして q4_k_m.
にアクセスして、 https://github.com/ggerganov/llama.cpp GGUFについて詳しく学んでください。必要であればGGUFへのエクスポート方法を手動で説明した手順も用意しています: https://github.com/unslothai/unsloth/wiki#manually-saving-to-gguf
以下のような長いテキストのリストが表示されます — 5〜10分お待ちください!!

そして最後に、最終的には以下のようになります:

次に、Ollama自体をバックグラウンドで実行する必要があります。私たちは subprocess を使用します。Colabは非同期呼び出しを好まないためですが、通常は単にターミナル/コマンドプロンプトで ollama serve を実行します。

自動 モデルファイル 作成
モデルファイル 作成Unslothが提供するトリックは、私たちが自動的に モデルファイル を作成することです。これはOllamaが要求するものです!これは設定のリストで、ファインチューニングプロセスで使用したチャットテンプレートも含まれています!また、生成された モデルファイル を以下のように出力することもできます:

その後、私たちはOllama互換のモデルを作成するようOllamaに依頼します。使用するのは モデルファイル

Ollama Inference
です。そして、ローカルマシン上/Colabの無料ノートブックでバックグラウンドで実行されているOllamaサーバー自体を呼び出して推論を行うことができます。黄色の下線部分は編集できることを忘れないでください。

Unslothでの実行はうまくいきますが、エクスポートしてOllamaで実行すると結果が悪い
モデルがUnsloth上では正常に動作して良い結果を出すのに、Ollamaのような他のプラットフォームで使用すると結果が悪くなったり、意味のない出力や終わりのない生成が発生することがあります または 繰り返し出力.
このエラーの最も一般的な原因は、 誤ったチャットテンプレート. です。Unslothでモデルを訓練したときに使用したのと同じチャットテンプレートを、llama.cppやOllamaなど別のフレームワークで実行する際にも必ず使用することが重要です。保存されたモデルから推論する場合、正しいテンプレートを適用することが不可欠です。
正しい
eos トークンを使用する必要があります。そうしないと、長い生成で意味のない出力が出ることがあります。また、推論エンジンが不要な「シーケンス開始」トークンを追加している(あるいは逆に欠如している)ことが原因の可能性もあるため、両方の仮説を確認してください!
最終更新
役に立ちましたか?

