推論のトラブルシューティング

モデルの実行や保存時に問題が発生している場合の対処法。

Unslothでの実行はうまくいきますが、エクスポートして他のプラットフォームで実行すると結果が悪い

モデルがUnsloth上では正しく動作して良い結果を出すのに、OllamaやvLLMのような別のプラットフォームで使うと結果が悪くなったり、意味不明な出力や終わりのない／無限の生成が発生することがあります。 または 繰り返し出力.

このエラーの最も一般的な原因は、 誤ったチャットテンプレート. です。Unslothでモデルを訓練したときに使用したのと同じチャットテンプレートを、llama.cppやOllamaなど別のフレームワークで実行する際にも必ず使用することが重要です。保存されたモデルから推論する場合、正しいテンプレートを適用することが不可欠です。
正しい eos トークンを使用する必要があります。そうしないと、長い生成で意味のない出力が出ることがあります。
また、推論エンジンが不要な「シーケンス開始」トークンを追加している（あるいは逆に欠如している）ことが原因の可能性もあるため、両方の仮説を確認してください！
チャットテンプレートを強制する私たちの会話用ノートブックを使用してください — これでほとんどの問題が解決します。
- Qwen-3 14B 会話用ノートブック Colabで開く
- Gemma-3 4B 会話用ノートブック Colabで開く
- Llama-3.2 3B 会話用ノートブック Colabで開く
- Phi-4 14B 会話用ノートブック Colabで開く
- Mistral v0.3 7B 会話用ノートブック Colabで開く
- その他のノートブックは私たちの ノートブックリポジトリ.

に保存しています `safetensors`、ではなく `bin` Colabでのフォーマット

私たちは .bin をColabで保存しているので約4倍速いですが、 safe_serialization = None を設定して強制的に保存する .safetensors。したがって model.save_pretrained(..., safe_serialization = None) または model.push_to_hub(..., safe_serialization = None)

GGUFやvLLMの16bitで保存中にクラッシュする場合

保存中の最大GPU使用量を減らすには、 maximum_memory_usage.

のデフォルトは model.save_pretrained(..., maximum_memory_usage = 0.75)です。ピークGPUメモリの50%を使うように0.5などに下げるか、それ以下にしてください。これにより保存中のOOMクラッシュを減らせます。

前へRun LLMs on your Phone 次へClaude Code

最終更新 2 か月前

役に立ちましたか？

hashtagUnslothでの実行はうまくいきますが、エクスポートして他のプラットフォームで実行すると結果が悪い

hashtagに保存しています safetensors、ではなく bin Colabでのフォーマット

hashtagGGUFやvLLMの16bitで保存中にクラッシュする場合

Unslothでの実行はうまくいきますが、エクスポートして他のプラットフォームで実行すると結果が悪い

に保存しています `safetensors`、ではなく `bin` Colabでのフォーマット

GGUFやvLLMの16bitで保存中にクラッシュする場合