ファインチューニングしたモデルを保存して、お気に入りの推論エンジンで実行できるようにする方法を学びます。
次の方法でファインチューニングしたモデルを実行することもできます: Unsloth の 2倍高速な推論.
llama.cpp - GGUF への保存
vLLM
Ollama
LM Studio
SGLang
Unsloth 推論
トラブルシューティング
llama-server と OpenAI エンドポイント
vLLM エンジン引数
LoRA ホットスワップ
ツール呼び出し(Tool Calling)
最終更新 1 か月前
役に立ちましたか?