ファインチューニングしたモデルを保存して、お気に入りの推論エンジンで実行する方法を学びます。
次の方法でもファインチューニング済みモデルを実行できます: Unsloth の 2倍高速な推論.
llama.cpp - GGUF に保存
vLLM
Ollama
LM Studio
SGLang
Unsloth 推論
トラブルシューティング
llama-server と OpenAI エンドポイント
vLLM エンジン引数
LoRA ホットスワップ
ツール呼び出し
携帯電話で LLM を実行
最終更新 4 日前
役に立ちましたか?