Arguments du moteur vLLM
Arguments, drapeaux, options du moteur vLLM pour servir des modĂšles sur vLLM.
--gpu-memory-utilization
Par défaut 0,9. Quelle part de la VRAM vLLM peut utiliser. Réduisez si vous manquez de mémoire. Essayez de régler sur 0,95 ou 0,97.
--max-model-len
Définir la longueur maximale de séquence. Réduisez ceci si vous manquez de mémoire ! Par exemple définir --max-model-len 32768 pour n'utiliser que des longueurs de séquence de 32K.
--quantization
Utiliser fp8 pour la quantification dynamique float8. Utilisez ceci conjointement avec --kv-cache-dtype fp8 pour activer également le cache KV en float8.
--kv-cache-dtype
Utilisez fp8 pour le cache KV en float8 afin de réduire l'utilisation mémoire de 50 %.
--port
Par défaut c'est 8000. Comment accéder au localhost de vLLM, par ex. http://localhost:8000
--api-key
Optionnel - Définir le mot de passe (ou aucun mot de passe) pour accéder au modÚle.
--tensor-parallel-size
Par dĂ©faut 1. Divise le modĂšle Ă travers les tenseurs. RĂ©glez ceci sur le nombre de GPU que vous utilisez - si vous en avez 4, mettez 4. 8, alors 8. Vous devriez avoir NCCL, sinon cela peut ĂȘtre lent.
--pipeline-parallel-size
Par dĂ©faut 1. Divise le modĂšle Ă travers les couches. Utilisez ceci avec --pipeline-parallel-size oĂč TP est utilisĂ© au sein de chaque nĆud, et PP est utilisĂ© Ă travers des configurations multi-nĆuds (rĂ©glez PP sur le nombre de nĆuds)
--enable-lora
Active le service LoRA. Utile pour servir des LoRA finement ajustés par Unsloth.
--max-loras
Combien de LoRA vous voulez servir en mĂȘme temps. RĂ©glez sur 1 pour 1 LoRA, ou par exemple 16. C'est une file d'attente donc les LoRA peuvent ĂȘtre Ă©changĂ©s Ă chaud.
--max-lora-rank
Rang maximal de tous les LoRA. Les choix possibles sont 8, 16, 32, 64, 128, 256, 320, 512
--dtype
Permet auto, bfloat16, float16 Float8 et autres quantifications utilisent un drapeau différent - voir --quantization
--tokenizer
Spécifier le chemin du tokenizer comme unsloth/gpt-oss-20b si le modÚle servi a un tokenizer différent.
--hf-token
Ajoutez votre token HuggingFace si nécessaire pour les modÚles restreints
--swap-space
Par défaut 4 Go. Utilisation du déchargement CPU. Réduisez si vous avez de la VRAM, ou augmentez pour des GPU à faible mémoire.
--seed
Par défaut 0 pour vLLM
--disable-log-stats
DĂ©sactive la journalisation comme le dĂ©bit, les requĂȘtes serveur.
--enforce-eager
Désactive la compilation. Chargement plus rapide, mais inférence plus lente.
--disable-cascade-attn
Utile pour les exécutions d'apprentissage par renforcement pour vLLM < 0.11.0, car l'attention en cascade était légÚrement boguée sur les GPU A100 (Unsloth corrige cela)
đQuantification Float8
Par exemple, pour héberger Llama 3.3 70B Instruct (prend en charge une longueur de contexte de 128K) avec cache KV Float8 et quantification, essayez :
đ§Ăchange Ă chaud LoRA / LoRA dynamiques
Pour activer le service LoRA pour au plus 4 LoRA à la fois (qui sont échangés à chaud / modifiés), définissez d'abord le drapeau d'environnement pour autoriser l'échange à chaud :
Voir notre Guide de permutation à chaud LoRA pour plus de détails.
Mis Ă jour
Ce contenu vous a-t-il été utile ?

