vLLM-Engine-Argumente

vLLM-Engine-Argumente, Flags, Optionen zum Bereitstellen von Modellen auf vLLM.

Argument

Beispiel und Anwendungsfall

--gpu-memory-utilization

Standard 0,9. Wie viel VRAM vLLM nutzen kann. Verringern, wenn der Speicher erschöpft ist. Versuchen Sie, dies auf 0,95 oder 0,97 zu setzen.

--max-model-len

Setzt die maximale Sequenzlänge. Verringern Sie dies, wenn der Speicher erschöpft ist! Zum Beispiel setzen Sie --max-model-len 32768 um nur 32K Sequenzlängen zu verwenden.

--quantization

Verwendet fp8 für dynamische Float8-Quantisierung. Verwenden Sie dies zusammen mit --kv-cache-dtype fp8, um auch Float8 KV-Cache zu aktivieren.

--kv-cache-dtype

Verwenden Sie fp8 für Float8 KV-Cache, um den Speicherverbrauch um 50 % zu reduzieren.

--port

Standard ist 8000. Wie man auf vLLM lokal zugreift, z. B. http://localhost:8000

--api-key

Optional – Setzen Sie das Passwort (oder kein Passwort), um auf das Modell zuzugreifen.

--tensor-parallel-size

Standard ist 1. Teilt das Modell über Tensoren auf. Setzen Sie dies auf die Anzahl der GPUs, die Sie verwenden – wenn Sie 4 haben, setzen Sie es auf 4. Bei 8 entsprechend auf 8. Sie sollten NCCL haben, sonst kann es langsam sein.

--pipeline-parallel-size

Standard ist 1. Teilt das Modell über Schichten auf. Verwenden Sie dies zusammen mit --pipeline-parallel-size wobei TP innerhalb jedes Knotens verwendet wird und PP über Multi-Node-Setups (setzen Sie PP auf die Anzahl der Knoten)

--enable-lora

Aktiviert LoRA-Bereitstellung. Nützlich zum Bereitstellen von Unsloth-feinabgestimmten LoRAs.

--max-loras

Wie viele LoRAs Sie gleichzeitig bereitstellen möchten. Setzen Sie dies auf 1 für 1 LoRA oder z. B. auf 16. Dies ist eine Warteschlange, sodass LoRAs hot-swappable sind.

--max-lora-rank

Maximale Rangzahl aller LoRAs. Mögliche Optionen sind 8, 16, 32, 64, 128, 256, 320, 512

--dtype

Erlaubt auto, bfloat16, float16 Float8 und andere Quantisierungen verwenden ein anderes Flag – siehe --quantization

--tokenizer

Geben Sie den Tokenizer-Pfad an wie unsloth/gpt-oss-20b falls das bereitgestellte Modell einen anderen Tokenizer hat.

--hf-token

Fügen Sie bei Bedarf Ihr HuggingFace-Token für geschützte Modelle hinzu

--swap-space

Standard ist 4 GB. CPU-Offloading-Nutzung. Verringern, wenn Sie VRAM haben, oder erhöhen für GPUs mit wenig Speicher.

--seed

Standard ist 0 für vLLM

--disable-log-stats

Deaktiviert das Logging wie Durchsatz, Serveranfragen.

--enforce-eager

Deaktiviert die Kompilierung. Schneller beim Laden, aber langsamer bei der Inferenz.

--disable-cascade-attn

Nützlich für Reinforcement-Learning-Läufe für vLLM < 0.11.0, da Cascade Attention auf A100-GPUs leicht fehlerhaft war (Unsloth behebt dies)

🎉Float8-Quantisierung

Beispielsweise, um Llama 3.3 70B Instruct (unterstützt 128K Kontextlänge) mit Float8-KV-Cache und Quantisierung zu hosten, versuchen Sie:

vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536

🍧LoRA Hot Swapping / Dynamische LoRAs

Um LoRA-Serving für höchstens 4 LoRAs gleichzeitig zu ermöglichen (diese werden zur Laufzeit getauscht/geändert), setzen Sie zuerst die Umgebungsvariable, um Hot Swapping zu erlauben:

Siehe unser LoRA Hot-Swapping-Anleitung für weitere Details.

VorherigevLLM NächsteLoRA Hot-Swapping-Anleitung

Zuletzt aktualisiert vor 2 Monaten

War das hilfreich?

hashtag🎉Float8-Quantisierung

hashtag🍧LoRA Hot Swapping / Dynamische LoRAs

🎉Float8-Quantisierung

🍧LoRA Hot Swapping / Dynamische LoRAs