# Arguments du moteur vLLM

Arguments, drapeaux, options du moteur vLLM pour servir des modèles sur vLLM.

<table><thead><tr><th width="212.9000244140625">Argument</th><th>Exemple et cas d'utilisation</th></tr></thead><tbody><tr><td><strong><code>--gpu-memory-utilization</code></strong></td><td>Par défaut 0,9. Quelle part de la VRAM vLLM peut utiliser. Réduisez si vous manquez de mémoire. Essayez de régler sur 0,95 ou 0,97.</td></tr><tr><td><strong><code>--max-model-len</code></strong></td><td>Définir la longueur maximale de séquence. Réduisez ceci si vous manquez de mémoire ! Par exemple définir <strong><code>--max-model-len 32768</code></strong> pour n'utiliser que des longueurs de séquence de 32K.</td></tr><tr><td><strong><code>--quantization</code></strong></td><td>Utiliser fp8 pour la quantification dynamique float8. Utilisez ceci conjointement avec <strong><code>--kv-cache-dtype</code></strong> fp8 pour activer également le cache KV en float8.</td></tr><tr><td><strong><code>--kv-cache-dtype</code></strong></td><td>Utilisez <code>fp8</code> pour le cache KV en float8 afin de réduire l'utilisation mémoire de 50 %.</td></tr><tr><td><strong><code>--port</code></strong></td><td>Par défaut c'est 8000. Comment accéder au localhost de vLLM, par ex. http://localhost:8000</td></tr><tr><td><strong><code>--api-key</code></strong></td><td>Optionnel - Définir le mot de passe (ou aucun mot de passe) pour accéder au modèle.</td></tr><tr><td><strong><code>--tensor-parallel-size</code></strong></td><td>Par défaut 1. Divise le modèle à travers les tenseurs. Réglez ceci sur le nombre de GPU que vous utilisez - si vous en avez 4, mettez 4. 8, alors 8. Vous devriez avoir NCCL, sinon cela peut être lent.</td></tr><tr><td><strong><code>--pipeline-parallel-size</code></strong></td><td>Par défaut 1. Divise le modèle à travers les couches. Utilisez ceci avec <strong><code>--pipeline-parallel-size</code></strong> où TP est utilisé au sein de chaque nœud, et PP est utilisé à travers des configurations multi-nœuds (réglez PP sur le nombre de nœuds)</td></tr><tr><td><strong><code>--enable-lora</code></strong></td><td>Active le service LoRA. Utile pour servir des LoRA finement ajustés par Unsloth.</td></tr><tr><td><strong><code>--max-loras</code></strong></td><td>Combien de LoRA vous voulez servir en même temps. Réglez sur 1 pour 1 LoRA, ou par exemple 16. C'est une file d'attente donc les LoRA peuvent être échangés à chaud.</td></tr><tr><td><strong><code>--max-lora-rank</code></strong></td><td>Rang maximal de tous les LoRA. Les choix possibles sont <code>8</code>, <code>16</code>, <code>32</code>, <code>64</code>, <code>128</code>, <code>256</code>, <code>320</code>, <code>512</code></td></tr><tr><td><strong><code>--dtype</code></strong></td><td>Permet <code>auto</code>, <code>bfloat16</code>, <code>float16</code> Float8 et autres quantifications utilisent un drapeau différent - voir <code>--quantization</code></td></tr><tr><td><strong><code>--tokenizer</code></strong></td><td>Spécifier le chemin du tokenizer comme <code>unsloth/gpt-oss-20b</code> si le modèle servi a un tokenizer différent.</td></tr><tr><td><strong><code>--hf-token</code></strong></td><td>Ajoutez votre token HuggingFace si nécessaire pour les modèles restreints</td></tr><tr><td><strong><code>--swap-space</code></strong></td><td>Par défaut 4 Go. Utilisation du déchargement CPU. Réduisez si vous avez de la VRAM, ou augmentez pour des GPU à faible mémoire.</td></tr><tr><td><strong><code>--seed</code></strong></td><td>Par défaut 0 pour vLLM</td></tr><tr><td><strong><code>--disable-log-stats</code></strong></td><td>Désactive la journalisation comme le débit, les requêtes serveur.</td></tr><tr><td><strong><code>--enforce-eager</code></strong></td><td>Désactive la compilation. Chargement plus rapide, mais inférence plus lente.</td></tr><tr><td><strong><code>--disable-cascade-attn</code></strong></td><td>Utile pour les exécutions d'apprentissage par renforcement pour vLLM &#x3C; 0.11.0, car l'attention en cascade était légèrement boguée sur les GPU A100 (Unsloth corrige cela)</td></tr></tbody></table>

### :tada:Quantification Float8

Par exemple, pour héberger Llama 3.3 70B Instruct (prend en charge une longueur de contexte de 128K) avec cache KV Float8 et quantification, essayez :

```bash
vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536
```

### :shaved\_ice:Échange à chaud LoRA / LoRA dynamiques

Pour activer le service LoRA pour au plus 4 LoRA à la fois (qui sont échangés à chaud / modifiés), définissez d'abord le drapeau d'environnement pour autoriser l'échange à chaud :

Voir notre [Guide de permutation à chaud LoRA](/docs/fr/bases/inference-and-deployment/vllm-guide/lora-hot-swapping-guide.md) pour plus de détails.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/bases/inference-and-deployment/vllm-guide/vllm-engine-arguments.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
