# vLLM-Engine-Argumente

vLLM-Engine-Argumente, Flags, Optionen zum Bereitstellen von Modellen auf vLLM.

<table><thead><tr><th width="212.9000244140625">Argument</th><th>Beispiel und Anwendungsfall</th></tr></thead><tbody><tr><td><strong><code>--gpu-memory-utilization</code></strong></td><td>Standard 0,9. Wie viel VRAM vLLM nutzen kann. Verringern, wenn der Speicher erschöpft ist. Versuchen Sie, dies auf 0,95 oder 0,97 zu setzen.</td></tr><tr><td><strong><code>--max-model-len</code></strong></td><td>Setzt die maximale Sequenzlänge. Verringern Sie dies, wenn der Speicher erschöpft ist! Zum Beispiel setzen Sie <strong><code>--max-model-len 32768</code></strong> um nur 32K Sequenzlängen zu verwenden.</td></tr><tr><td><strong><code>--quantization</code></strong></td><td>Verwendet fp8 für dynamische Float8-Quantisierung. Verwenden Sie dies zusammen mit <strong><code>--kv-cache-dtype</code></strong> fp8, um auch Float8 KV-Cache zu aktivieren.</td></tr><tr><td><strong><code>--kv-cache-dtype</code></strong></td><td>Verwenden Sie <code>fp8</code> für Float8 KV-Cache, um den Speicherverbrauch um 50 % zu reduzieren.</td></tr><tr><td><strong><code>--port</code></strong></td><td>Standard ist 8000. Wie man auf vLLM lokal zugreift, z. B. http://localhost:8000</td></tr><tr><td><strong><code>--api-key</code></strong></td><td>Optional – Setzen Sie das Passwort (oder kein Passwort), um auf das Modell zuzugreifen.</td></tr><tr><td><strong><code>--tensor-parallel-size</code></strong></td><td>Standard ist 1. Teilt das Modell über Tensoren auf. Setzen Sie dies auf die Anzahl der GPUs, die Sie verwenden – wenn Sie 4 haben, setzen Sie es auf 4. Bei 8 entsprechend auf 8. Sie sollten NCCL haben, sonst kann es langsam sein.</td></tr><tr><td><strong><code>--pipeline-parallel-size</code></strong></td><td>Standard ist 1. Teilt das Modell über Schichten auf. Verwenden Sie dies zusammen mit <strong><code>--pipeline-parallel-size</code></strong> wobei TP innerhalb jedes Knotens verwendet wird und PP über Multi-Node-Setups (setzen Sie PP auf die Anzahl der Knoten)</td></tr><tr><td><strong><code>--enable-lora</code></strong></td><td>Aktiviert LoRA-Bereitstellung. Nützlich zum Bereitstellen von Unsloth-feinabgestimmten LoRAs.</td></tr><tr><td><strong><code>--max-loras</code></strong></td><td>Wie viele LoRAs Sie gleichzeitig bereitstellen möchten. Setzen Sie dies auf 1 für 1 LoRA oder z. B. auf 16. Dies ist eine Warteschlange, sodass LoRAs hot-swappable sind.</td></tr><tr><td><strong><code>--max-lora-rank</code></strong></td><td>Maximale Rangzahl aller LoRAs. Mögliche Optionen sind <code>8</code>, <code>16</code>, <code>32</code>, <code>64</code>, <code>128</code>, <code>256</code>, <code>320</code>, <code>512</code></td></tr><tr><td><strong><code>--dtype</code></strong></td><td>Erlaubt <code>auto</code>, <code>bfloat16</code>, <code>float16</code> Float8 und andere Quantisierungen verwenden ein anderes Flag – siehe <code>--quantization</code></td></tr><tr><td><strong><code>--tokenizer</code></strong></td><td>Geben Sie den Tokenizer-Pfad an wie <code>unsloth/gpt-oss-20b</code> falls das bereitgestellte Modell einen anderen Tokenizer hat.</td></tr><tr><td><strong><code>--hf-token</code></strong></td><td>Fügen Sie bei Bedarf Ihr HuggingFace-Token für geschützte Modelle hinzu</td></tr><tr><td><strong><code>--swap-space</code></strong></td><td>Standard ist 4 GB. CPU-Offloading-Nutzung. Verringern, wenn Sie VRAM haben, oder erhöhen für GPUs mit wenig Speicher.</td></tr><tr><td><strong><code>--seed</code></strong></td><td>Standard ist 0 für vLLM</td></tr><tr><td><strong><code>--disable-log-stats</code></strong></td><td>Deaktiviert das Logging wie Durchsatz, Serveranfragen.</td></tr><tr><td><strong><code>--enforce-eager</code></strong></td><td>Deaktiviert die Kompilierung. Schneller beim Laden, aber langsamer bei der Inferenz.</td></tr><tr><td><strong><code>--disable-cascade-attn</code></strong></td><td>Nützlich für Reinforcement-Learning-Läufe für vLLM &#x3C; 0.11.0, da Cascade Attention auf A100-GPUs leicht fehlerhaft war (Unsloth behebt dies)</td></tr></tbody></table>

### :tada:Float8-Quantisierung

Beispielsweise, um Llama 3.3 70B Instruct (unterstützt 128K Kontextlänge) mit Float8-KV-Cache und Quantisierung zu hosten, versuchen Sie:

```bash
vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536
```

### :shaved\_ice:LoRA Hot Swapping / Dynamische LoRAs

Um LoRA-Serving für höchstens 4 LoRAs gleichzeitig zu ermöglichen (diese werden zur Laufzeit getauscht/geändert), setzen Sie zuerst die Umgebungsvariable, um Hot Swapping zu erlauben:

Siehe unser [Leitfaden zum Hot-Swapping von LoRA](/docs/de/grundlagen/inference-and-deployment/vllm-guide/lora-hot-swapping-guide.md) für weitere Details.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/inference-and-deployment/vllm-guide/vllm-engine-arguments.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
