vLLM デプロイ & 推論ガイド

LLM を vLLM に保存してプロダクションで提供するためのデプロイガイド

💻vLLM のインストール

NVIDIA GPU の場合、uv を使用して次を実行してください:

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto

AMD GPU の場合は、ナイトリービルドの Docker イメージを使用してください: rocm/vllm-dev:nightly

NVIDIA GPU 用のナイトリーブランチは、次を実行します:

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

詳細については vLLM ドキュメントarrow-up-right 詳細については

🚚vLLM モデルのデプロイ

ファインチューンを保存した後、単に次のようにできます:

vllm serve unsloth/gpt-oss-120b

🚒vLLM デプロイメントサーバーのフラグ、エンジン引数とオプション

使用する重要なサーバーフラグは次にあります vLLM

🦥vLLM での Unsloth ファインチューンのデプロイ

ファインチューニング後 Fine-tuning Guide または当社のノートブックを使用して Unsloth ノートブック、単一のワークフロー内で vLLM を通じてモデルを直接保存またはデプロイできます。例えばの Unsloth ファインチューニングスクリプトの例:

vLLM 用に 16 ビットで保存するには、次を使用します:

LoRA アダプタだけを保存するには、いずれかを使用します:

または当社の組み込み関数を使ってこれを行うだけでも良いです:

HuggingFace でロードするために 4bit にマージするには、まず呼び出します merged_4bit。その後使用します merged_4bit_forced もし 4bit にマージすることを確信しているなら。4bit モデルをどう扱うか(例:DPO トレーニングや HuggingFace のオンライン推論エンジン等)を理解している場合を除き、私は強くお勧めしません。

その後、別のターミナルで vLLM にファインチューンドモデルをロードするには:

上記が動作しない場合はフルパスを指定する必要があるかもしれません、例:

その他のコンテンツを参照:

最終更新

役に立ちましたか?