LoRA ホットスワップガイド

🍧 vLLM LoRA ホットスワップ / 動的 LoRA

同時に最大4つの LoRA をホットスワップ（切り替え）できるようにするには、まずホットスワップを許可する環境フラグを設定します：

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True

次に、LoRA サポートを有効にして起動します：

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True
vllm serve unsloth/Llama-3.1-8B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.8 \
    --max-model-len 65536 \
    --enable-lora \
    --max-loras 4 \
    --max-lora-rank 64

LoRA を動的に読み込む（lora 名も設定）には、次を実行します：

curl -X POST http://localhost:8000/v1/load_lora_adapter \
    -H "Content-Type: application/json" \
    -d '{
        "lora_name": "LORA_NAME",
        "lora_path": "/path/to/LORA"
    }'

プールから削除するには：

curl -X POST http://localhost:8000/v1/unload_lora_adapter \
    -H "Content-Type: application/json" \
    -d '{
        "lora_name": "LORA_NAME"
    }'

例えば Unsloth でファインチューニングする場合：

from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/Llama-3.1-8B-Instruct",
    max_seq_length = 2048,
    load_in_4bit = True,
)
model = FastLanguageModel.get_peft_model(model)

トレーニング後、LoRA を保存します：

model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")

その後、LoRA を読み込むことができます：

curl -X POST http://localhost:8000/v1/load_lora_adapter \
    -H "Content-Type: application/json" \
    -d '{
        "lora_name": "LORA_NAME_finetuned_lora",
        "lora_path": "finetuned_lora"
    }'

前へvLLM エンジン引数次へOllama

最終更新 2 か月前

役に立ちましたか？

hashtag🍧 vLLM LoRA ホットスワップ / 動的 LoRA

🍧 vLLM LoRA ホットスワップ / 動的 LoRA