推論のトラブルシューティング

モデルの実行や保存時に問題が発生している場合の対処法。

Unslothでの実行はうまくいきますが、エクスポートして他のプラットフォームで実行すると結果が悪い

モデルがUnsloth上では正しく動作して良い結果を出すのに、OllamaやvLLMのような別のプラットフォームで使うと結果が悪くなったり、意味不明な出力や終わりのない/無限の生成が発生することがあります。 または 繰り返し出力.

  • このエラーの最も一般的な原因は、 誤ったチャットテンプレート. です。Unslothでモデルを訓練したときに使用したのと同じチャットテンプレートを、llama.cppやOllamaなど別のフレームワークで実行する際にも必ず使用することが重要です。保存されたモデルから推論する場合、正しいテンプレートを適用することが不可欠です。

  • 正しい eos トークンを使用する必要があります。そうしないと、長い生成で意味のない出力が出ることがあります。

  • また、推論エンジンが不要な「シーケンス開始」トークンを追加している(あるいは逆に欠如している)ことが原因の可能性もあるため、両方の仮説を確認してください!

  • チャットテンプレートを強制する私たちの会話用ノートブックを使用してください — これでほとんどの問題が解決します。

に保存しています safetensors、ではなく bin Colabでのフォーマット

私たちは .bin をColabで保存しているので約4倍速いですが、 safe_serialization = None を設定して強制的に保存する .safetensors。したがって model.save_pretrained(..., safe_serialization = None) または model.push_to_hub(..., safe_serialization = None)

GGUFやvLLMの16bitで保存中にクラッシュする場合

保存中の最大GPU使用量を減らすには、 maximum_memory_usage.

のデフォルトは model.save_pretrained(..., maximum_memory_usage = 0.75)です。ピークGPUメモリの50%を使うように0.5などに下げるか、それ以下にしてください。これにより保存中のOOMクラッシュを減らせます。

最終更新

役に立ちましたか?