vLLM デプロイメント＆推論ガイド

本番環境で LLM を提供するために LLM を vLLM に保存してデプロイするためのガイド

💻vLLM のインストール

NVIDIA GPU の場合、uv を使用して次を実行してください：

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto

AMD GPU の場合は、ナイトリービルドの Docker イメージを使用してください： rocm/vllm-dev:nightly

NVIDIA GPU 用のナイトリーブランチは、次を実行します：

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

詳細については vLLM ドキュメント詳細については

🚚vLLM モデルのデプロイ

ファインチューンを保存した後、単に次のようにできます：

vllm serve unsloth/gpt-oss-120b

🚒vLLM デプロイメントサーバーのフラグ、エンジン引数とオプション

使用する重要なサーバーフラグは次にあります vLLM

🦥vLLM での Unsloth ファインチューンのデプロイ

ファインチューニング後 Fine-tuning Guide または当社のノートブックを使用して Unsloth ノートブック、単一のワークフロー内で vLLM を通じてモデルを直接保存またはデプロイできます。例えばの Unsloth ファインチューニングスクリプトの例：

from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gpt-oss-20b",
    max_seq_length = 2048,
    load_in_4bit = True,
)
model = FastLanguageModel.get_peft_model(model)

vLLM 用に 16 ビットで保存するには、次を使用します：

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## または HuggingFace にアップロードするには：
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

LoRA アダプタだけを保存するには、いずれかを使用します：

model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")

または当社の組み込み関数を使ってこれを行うだけでも良いです：

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "lora")
## または HuggingFace にアップロードするには
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

HuggingFace でロードするために 4bit にマージするには、まず呼び出します merged_4bit。その後使用します merged_4bit_forced もし 4bit にマージすることを確信しているなら。4bit モデルをどう扱うか（例：DPO トレーニングや HuggingFace のオンライン推論エンジン等）を理解している場合を除き、私は強くお勧めしません。

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_4bit")
## HuggingFace にアップロードするには：
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_4bit", token = "")

その後、別のターミナルで vLLM にファインチューンドモデルをロードするには：

vllm serve finetuned_model

上記が動作しない場合はフルパスを指定する必要があるかもしれません、例：

vllm serve /mnt/disks/daniel/finetuned_model

その他のコンテンツを参照：

vLLM エンジン引数

LoRA ホットスワップガイド

前へ推測デコーディング次へvLLM エンジン引数

最終更新 2 か月前

役に立ちましたか？

hashtag💻vLLM のインストール

hashtag🚚vLLM モデルのデプロイ

hashtag🚒vLLM デプロイメントサーバーのフラグ、エンジン引数とオプション

hashtag🦥vLLM での Unsloth ファインチューンのデプロイ

hashtagvLLM エンジン引数

hashtagLoRA ホットスワップガイド