LoRA 热插拔指南

🍧 vLLM LoRA 热插拔 / 动态 LoRA

要启用最多同时热插拔(更换)4 个 LoRA 的 LoRA 服务,首先设置环境标志以允许热插拔:

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True

然后,用 LoRA 支持启动服务:

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True
vllm serve unsloth/Llama-3.1-8B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.8 \
    --max-model-len 65536 \
    --enable-lora \
    --max-loras 4 \
    --max-lora-rank 64

要动态加载 LoRA(同时设置 lora 名称),请执行:

curl -X POST http://localhost:8000/v1/load_lora_adapter \
    -H "Content-Type: application/json" \
    -d '{
        "lora_name": "LORA_NAME",
        "lora_path": "/path/to/LORA"
    }'

要将其从池中移除:

例如使用 Unsloth 进行微调时:

然后在训练之后,我们保存 LoRA:

然后我们可以加载该 LoRA:

最后更新于

这有帮助吗?