LoRA Hot-Swapping Anleitung

🍧 vLLM LoRA Hot Swapping / Dynamische LoRAs

Um LoRA-Serving für höchstens 4 LoRAs gleichzeitig zu ermöglichen (diese werden zur Laufzeit getauscht/geändert), setzen Sie zuerst die Umgebungsvariable, um Hot Swapping zu erlauben:

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True

Dann dienen Sie es mit LoRA-Unterstützung:

export VLLM_ALLOW_RUNTIME_LORA_UPDATING=True
vllm serve unsloth/Llama-3.1-8B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.8 \
    --max-model-len 65536 \
    --enable-lora \
    --max-loras 4 \
    --max-lora-rank 64

Um eine LoRA dynamisch zu laden (setzen Sie auch den LoRA-Namen), führen Sie aus:

curl -X POST http://localhost:8000/v1/load_lora_adapter \
    -H "Content-Type: application/json" \
    -d '{
        "lora_name": "LORA_NAME",
        "lora_path": "/path/to/LORA"
    }'

Um sie aus dem Pool zu entfernen:

Zum Beispiel beim Fine-Tuning mit Unsloth:

Dann speichern wir nach dem Training die LoRAs:

Wir können dann die LoRA laden:

Zuletzt aktualisiert

War das hilfreich?