お気に入りの推論エンジンで実行できるように、ファインチューニング済みモデルの保存方法を学びます。
また、以下を使用してファインチューニング済みモデルを実行することもできます Unslothの2倍高速な推論.
Unsloth Studio Chat
llama.cpp - GGUFへの保存
vLLM
Ollama
LM Studio
SGLang
トラブルシューティング
llama-server と OpenAI エンドポイント
ツール呼び出し
スマートフォンでLLMを実行
最終更新 5 日前
役に立ちましたか?