# Arguments du moteur vLLM

Arguments, drapeaux, options du moteur vLLM pour servir des modèles sur vLLM.

<table><thead><tr><th width="212.9000244140625">Argument</th><th>Exemple et cas d'utilisation</th></tr></thead><tbody><tr><td><strong><code>--gpu-memory-utilization</code></strong></td><td>Par défaut 0,9. Quelle part de la VRAM vLLM peut utiliser. Réduisez si vous manquez de mémoire. Essayez de régler sur 0,95 ou 0,97.</td></tr><tr><td><strong><code>--max-model-len</code></strong></td><td>Définir la longueur maximale de séquence. Réduisez ceci si vous manquez de mémoire ! Par exemple définir <strong><code>--max-model-len 32768</code></strong> pour n'utiliser que des longueurs de séquence de 32K.</td></tr><tr><td><strong><code>--quantization</code></strong></td><td>Utiliser fp8 pour la quantification dynamique float8. Utilisez ceci conjointement avec <strong><code>--kv-cache-dtype</code></strong> fp8 pour activer également le cache KV en float8.</td></tr><tr><td><strong><code>--kv-cache-dtype</code></strong></td><td>Utilisez <code>fp8</code> pour le cache KV en float8 afin de réduire l'utilisation mémoire de 50 %.</td></tr><tr><td><strong><code>--port</code></strong></td><td>Par défaut c'est 8000. Comment accéder au localhost de vLLM, par ex. http://localhost:8000</td></tr><tr><td><strong><code>--api-key</code></strong></td><td>Optionnel - Définir le mot de passe (ou aucun mot de passe) pour accéder au modèle.</td></tr><tr><td><strong><code>--tensor-parallel-size</code></strong></td><td>Par défaut 1. Divise le modèle à travers les tenseurs. Réglez ceci sur le nombre de GPU que vous utilisez - si vous en avez 4, mettez 4. 8, alors 8. Vous devriez avoir NCCL, sinon cela peut être lent.</td></tr><tr><td><strong><code>--pipeline-parallel-size</code></strong></td><td>Par défaut 1. Divise le modèle à travers les couches. Utilisez ceci avec <strong><code>--pipeline-parallel-size</code></strong> où TP est utilisé au sein de chaque nœud, et PP est utilisé à travers des configurations multi-nœuds (réglez PP sur le nombre de nœuds)</td></tr><tr><td><strong><code>--enable-lora</code></strong></td><td>Active le service LoRA. Utile pour servir des LoRA finement ajustés par Unsloth.</td></tr><tr><td><strong><code>--max-loras</code></strong></td><td>Combien de LoRA vous voulez servir en même temps. Réglez sur 1 pour 1 LoRA, ou par exemple 16. C'est une file d'attente donc les LoRA peuvent être échangés à chaud.</td></tr><tr><td><strong><code>--max-lora-rank</code></strong></td><td>Rang maximal de tous les LoRA. Les choix possibles sont <code>8</code>, <code>16</code>, <code>32</code>, <code>64</code>, <code>128</code>, <code>256</code>, <code>320</code>, <code>512</code></td></tr><tr><td><strong><code>--dtype</code></strong></td><td>Permet <code>auto</code>, <code>bfloat16</code>, <code>float16</code> Float8 et autres quantifications utilisent un drapeau différent - voir <code>--quantization</code></td></tr><tr><td><strong><code>--tokenizer</code></strong></td><td>Spécifier le chemin du tokenizer comme <code>unsloth/gpt-oss-20b</code> si le modèle servi a un tokenizer différent.</td></tr><tr><td><strong><code>--hf-token</code></strong></td><td>Ajoutez votre token HuggingFace si nécessaire pour les modèles restreints</td></tr><tr><td><strong><code>--swap-space</code></strong></td><td>Par défaut 4 Go. Utilisation du déchargement CPU. Réduisez si vous avez de la VRAM, ou augmentez pour des GPU à faible mémoire.</td></tr><tr><td><strong><code>--seed</code></strong></td><td>Par défaut 0 pour vLLM</td></tr><tr><td><strong><code>--disable-log-stats</code></strong></td><td>Désactive la journalisation comme le débit, les requêtes serveur.</td></tr><tr><td><strong><code>--enforce-eager</code></strong></td><td>Désactive la compilation. Chargement plus rapide, mais inférence plus lente.</td></tr><tr><td><strong><code>--disable-cascade-attn</code></strong></td><td>Utile pour les exécutions d'apprentissage par renforcement pour vLLM &#x3C; 0.11.0, car l'attention en cascade était légèrement boguée sur les GPU A100 (Unsloth corrige cela)</td></tr></tbody></table>

### :tada:Quantification Float8

Par exemple, pour héberger Llama 3.3 70B Instruct (prend en charge une longueur de contexte de 128K) avec cache KV Float8 et quantification, essayez :

```bash
vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536
```

### :shaved\_ice:Échange à chaud LoRA / LoRA dynamiques

Pour activer le service LoRA pour au plus 4 LoRA à la fois (qui sont échangés à chaud / modifiés), définissez d'abord le drapeau d'environnement pour autoriser l'échange à chaud :

Voir notre [lora-hot-swapping-guide](https://unsloth.ai/docs/fr/bases/inference-and-deployment/vllm-guide/lora-hot-swapping-guide "mention") pour plus de détails.
