ファインチューニングしたモデルを保存して、お気に入りの推論エンジンで実行できるようにする方法を学びます。
微調整したモデルは次の方法でも実行できます Unsloth の 2倍速の推論.
llama.cpp - GGUF への保存
vLLM
Ollama
LM Studio
SGLang
Unsloth 推論
トラブルシューティング
llama-server と OpenAI エンドポイント
ツールコーリング
スマートフォンで LLM を実行する
最終更新 7 日前
役に立ちましたか?