Guide de hot swapping LoRA

🍧 vLLM LoRA Hot Swapping / LoRA dynamiques

Pour activer le service LoRA pour au plus 4 LoRA à la fois (qui sont échangés à chaud / modifiés), définissez d'abord le drapeau d'environnement pour autoriser l'échange à chaud :

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True

Ensuite, servez-le avec la prise en charge de LoRA :

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True
vllm serve unsloth/Llama-3.1-8B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.8 \
    --max-model-len 65536 \
    --enable-lora \
    --max-loras 4 \
    --max-lora-rank 64

Pour charger un LoRA dynamiquement (définissez également le nom du lora), faites :

curl -X POST http://localhost:8000/v1/load_lora_adapter \
    -H "Content-Type: application/json" \
    -d '{
        "lora_name": "LORA_NAME",
        "lora_path": "/path/to/LORA"
    }'

Pour le retirer du pool :

Par exemple lors du fine-tuning avec Unsloth :

Puis après l'entraînement, nous sauvegardons les LoRA :

Nous pouvons ensuite charger le LoRA :

Mis à jour

Ce contenu vous a-t-il été utile ?