Arguments du moteur vLLM
Arguments, drapeaux, options du moteur vLLM pour servir des modèles sur vLLM.
--gpu-memory-utilization
Par défaut 0,9. Quelle part de la VRAM vLLM peut utiliser. Réduisez si vous manquez de mémoire. Essayez de régler sur 0,95 ou 0,97.
--max-model-len
Définir la longueur maximale de séquence. Réduisez ceci si vous manquez de mémoire ! Par exemple définir --max-model-len 32768 pour n'utiliser que des longueurs de séquence de 32K.
--quantization
Utiliser fp8 pour la quantification dynamique float8. Utilisez ceci conjointement avec --kv-cache-dtype fp8 pour activer également le cache KV en float8.
--kv-cache-dtype
Utilisez fp8 pour le cache KV en float8 afin de réduire l'utilisation mémoire de 50 %.
--port
Par défaut c'est 8000. Comment accéder au localhost de vLLM, par ex. http://localhost:8000
--api-key
Optionnel - Définir le mot de passe (ou aucun mot de passe) pour accéder au modèle.
--tensor-parallel-size
Par défaut 1. Divise le modèle à travers les tenseurs. Réglez ceci sur le nombre de GPU que vous utilisez - si vous en avez 4, mettez 4. 8, alors 8. Vous devriez avoir NCCL, sinon cela peut être lent.
--pipeline-parallel-size
Par défaut 1. Divise le modèle à travers les couches. Utilisez ceci avec --pipeline-parallel-size où TP est utilisé au sein de chaque nœud, et PP est utilisé à travers des configurations multi-nœuds (réglez PP sur le nombre de nœuds)
--enable-lora
Active le service LoRA. Utile pour servir des LoRA finement ajustés par Unsloth.
--max-loras
Combien de LoRA vous voulez servir en même temps. Réglez sur 1 pour 1 LoRA, ou par exemple 16. C'est une file d'attente donc les LoRA peuvent être échangés à chaud.
--max-lora-rank
Rang maximal de tous les LoRA. Les choix possibles sont 8, 16, 32, 64, 128, 256, 320, 512
--dtype
Permet auto, bfloat16, float16 Float8 et autres quantifications utilisent un drapeau différent - voir --quantization
--tokenizer
Spécifier le chemin du tokenizer comme unsloth/gpt-oss-20b si le modèle servi a un tokenizer différent.
--hf-token
Ajoutez votre token HuggingFace si nécessaire pour les modèles restreints
--swap-space
Par défaut 4 Go. Utilisation du déchargement CPU. Réduisez si vous avez de la VRAM, ou augmentez pour des GPU à faible mémoire.
--seed
Par défaut 0 pour vLLM
--disable-log-stats
Désactive la journalisation comme le débit, les requêtes serveur.
--enforce-eager
Désactive la compilation. Chargement plus rapide, mais inférence plus lente.
--disable-cascade-attn
Utile pour les exécutions d'apprentissage par renforcement pour vLLM < 0.11.0, car l'attention en cascade était légèrement boguée sur les GPU A100 (Unsloth corrige cela)
🎉Quantification Float8
Par exemple, pour héberger Llama 3.3 70B Instruct (prend en charge une longueur de contexte de 128K) avec cache KV Float8 et quantification, essayez :
🍧Échange à chaud LoRA / LoRA dynamiques
Pour activer le service LoRA pour au plus 4 LoRA à la fois (qui sont échangés à chaud / modifiés), définissez d'abord le drapeau d'environnement pour autoriser l'échange à chaud :
Voir notre Guide de hot swapping LoRA pour plus de détails.
Mis à jour
Ce contenu vous a-t-il été utile ?

