vLLM Engine-Argumente
vLLM-Engine-Argumente, Flags, Optionen zum Bereitstellen von Modellen auf vLLM.
--gpu-memory-utilization
Standard 0,9. Wie viel VRAM vLLM nutzen kann. Verringern, wenn der Speicher erschöpft ist. Versuchen Sie, dies auf 0,95 oder 0,97 zu setzen.
--max-model-len
Setzt die maximale Sequenzlänge. Verringern Sie dies, wenn der Speicher erschöpft ist! Zum Beispiel setzen Sie --max-model-len 32768 um nur 32K Sequenzlängen zu verwenden.
--quantization
Verwendet fp8 für dynamische Float8-Quantisierung. Verwenden Sie dies zusammen mit --kv-cache-dtype fp8, um auch Float8 KV-Cache zu aktivieren.
--kv-cache-dtype
Verwenden Sie fp8 für Float8 KV-Cache, um den Speicherverbrauch um 50 % zu reduzieren.
--port
Standard ist 8000. Wie man auf vLLM lokal zugreift, z. B. http://localhost:8000
--api-key
Optional – Setzen Sie das Passwort (oder kein Passwort), um auf das Modell zuzugreifen.
--tensor-parallel-size
Standard ist 1. Teilt das Modell über Tensoren auf. Setzen Sie dies auf die Anzahl der GPUs, die Sie verwenden – wenn Sie 4 haben, setzen Sie es auf 4. Bei 8 entsprechend auf 8. Sie sollten NCCL haben, sonst kann es langsam sein.
--pipeline-parallel-size
Standard ist 1. Teilt das Modell über Schichten auf. Verwenden Sie dies zusammen mit --pipeline-parallel-size wobei TP innerhalb jedes Knotens verwendet wird und PP über Multi-Node-Setups (setzen Sie PP auf die Anzahl der Knoten)
--enable-lora
Aktiviert LoRA-Bereitstellung. Nützlich zum Bereitstellen von Unsloth-feinabgestimmten LoRAs.
--max-loras
Wie viele LoRAs Sie gleichzeitig bereitstellen möchten. Setzen Sie dies auf 1 für 1 LoRA oder z. B. auf 16. Dies ist eine Warteschlange, sodass LoRAs hot-swappable sind.
--max-lora-rank
Maximale Rangzahl aller LoRAs. Mögliche Optionen sind 8, 16, 32, 64, 128, 256, 320, 512
--dtype
Erlaubt auto, bfloat16, float16 Float8 und andere Quantisierungen verwenden ein anderes Flag – siehe --quantization
--tokenizer
Geben Sie den Tokenizer-Pfad an wie unsloth/gpt-oss-20b falls das bereitgestellte Modell einen anderen Tokenizer hat.
--hf-token
Fügen Sie bei Bedarf Ihr HuggingFace-Token für geschützte Modelle hinzu
--swap-space
Standard ist 4 GB. CPU-Offloading-Nutzung. Verringern, wenn Sie VRAM haben, oder erhöhen für GPUs mit wenig Speicher.
--seed
Standard ist 0 für vLLM
--disable-log-stats
Deaktiviert das Logging wie Durchsatz, Serveranfragen.
--enforce-eager
Deaktiviert die Kompilierung. Schneller beim Laden, aber langsamer bei der Inferenz.
--disable-cascade-attn
Nützlich für Reinforcement-Learning-Läufe für vLLM < 0.11.0, da Cascade Attention auf A100-GPUs leicht fehlerhaft war (Unsloth behebt dies)
🎉Float8-Quantisierung
Beispielsweise, um Llama 3.3 70B Instruct (unterstützt 128K Kontextlänge) mit Float8-KV-Cache und Quantisierung zu hosten, versuchen Sie:
🍧LoRA Hot Swapping / Dynamische LoRAs
Um LoRA-Serving für höchstens 4 LoRAs gleichzeitig zu ermöglichen (diese werden zur Laufzeit getauscht/geändert), setzen Sie zuerst die Umgebungsvariable, um Hot Swapping zu erlauben:
Siehe unser LoRA Hot-Swapping Anleitung für weitere Details.
Zuletzt aktualisiert
War das hilfreich?

