Arguments du moteur vLLM

Arguments, drapeaux, options du moteur vLLM pour servir des modèles sur vLLM.

Argument

Exemple et cas d'utilisation

--gpu-memory-utilization

Par défaut 0,9. Quelle part de la VRAM vLLM peut utiliser. Réduisez si vous manquez de mémoire. Essayez de régler sur 0,95 ou 0,97.

--max-model-len

Définir la longueur maximale de séquence. Réduisez ceci si vous manquez de mémoire ! Par exemple définir --max-model-len 32768 pour n'utiliser que des longueurs de séquence de 32K.

--quantization

Utiliser fp8 pour la quantification dynamique float8. Utilisez ceci conjointement avec --kv-cache-dtype fp8 pour activer également le cache KV en float8.

--kv-cache-dtype

Utilisez fp8 pour le cache KV en float8 afin de réduire l'utilisation mémoire de 50 %.

--port

Par défaut c'est 8000. Comment accéder au localhost de vLLM, par ex. http://localhost:8000

--api-key

Optionnel - Définir le mot de passe (ou aucun mot de passe) pour accéder au modèle.

--tensor-parallel-size

Par défaut 1. Divise le modèle à travers les tenseurs. Réglez ceci sur le nombre de GPU que vous utilisez - si vous en avez 4, mettez 4. 8, alors 8. Vous devriez avoir NCCL, sinon cela peut être lent.

--pipeline-parallel-size

Par défaut 1. Divise le modèle à travers les couches. Utilisez ceci avec --pipeline-parallel-size où TP est utilisé au sein de chaque nœud, et PP est utilisé à travers des configurations multi-nœuds (réglez PP sur le nombre de nœuds)

--enable-lora

Active le service LoRA. Utile pour servir des LoRA finement ajustés par Unsloth.

--max-loras

Combien de LoRA vous voulez servir en même temps. Réglez sur 1 pour 1 LoRA, ou par exemple 16. C'est une file d'attente donc les LoRA peuvent être échangés à chaud.

--max-lora-rank

Rang maximal de tous les LoRA. Les choix possibles sont 8, 16, 32, 64, 128, 256, 320, 512

--dtype

Permet auto, bfloat16, float16 Float8 et autres quantifications utilisent un drapeau différent - voir --quantization

--tokenizer

Spécifier le chemin du tokenizer comme unsloth/gpt-oss-20b si le modèle servi a un tokenizer différent.

--hf-token

Ajoutez votre token HuggingFace si nécessaire pour les modèles restreints

--swap-space

Par défaut 4 Go. Utilisation du déchargement CPU. Réduisez si vous avez de la VRAM, ou augmentez pour des GPU à faible mémoire.

--seed

Par défaut 0 pour vLLM

--disable-log-stats

Désactive la journalisation comme le débit, les requêtes serveur.

--enforce-eager

Désactive la compilation. Chargement plus rapide, mais inférence plus lente.

--disable-cascade-attn

Utile pour les exécutions d'apprentissage par renforcement pour vLLM < 0.11.0, car l'attention en cascade était légèrement boguée sur les GPU A100 (Unsloth corrige cela)

🎉Quantification Float8

Par exemple, pour héberger Llama 3.3 70B Instruct (prend en charge une longueur de contexte de 128K) avec cache KV Float8 et quantification, essayez :

vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536

🍧Échange à chaud LoRA / LoRA dynamiques

Pour activer le service LoRA pour au plus 4 LoRA à la fois (qui sont échangés à chaud / modifiés), définissez d'abord le drapeau d'environnement pour autoriser l'échange à chaud :

Voir notre Guide de permutation à chaud LoRA pour plus de détails.

PrécédentvLLM SuivantGuide de permutation à chaud LoRA

Mis à jour il y a 2 mois

Ce contenu vous a-t-il été utile ?

hashtag🎉Quantification Float8

hashtag🍧Échange à chaud LoRA / LoRA dynamiques

🎉Quantification Float8

🍧Échange à chaud LoRA / LoRA dynamiques