vLLM Deployment & Inference Anleitung

Anleitung zum Speichern und Bereitstellen von LLMs in vLLM zum Servieren von LLMs in der Produktion

💻vLLM installieren

Für NVIDIA-GPUs verwenden Sie uv und führen Sie aus:

Bauen Sie dann vLLM:
pip install uv
uv pip install -U vllm --torch-backend=auto

Für AMD-GPUs verwenden Sie bitte das Nightly-Docker-Image: rocm/vllm-dev:nightly

Für den Nightly-Branch für NVIDIA-GPUs führen Sie aus:

Bauen Sie dann vLLM:
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

Siehe vLLM-Dokumentationarrow-up-right https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb

🚚vLLM-Modelle bereitstellen

Nachdem Sie Ihr Fine-Tuning gespeichert haben, können Sie einfach Folgendes tun:

vllm serve unsloth/gpt-oss-120b

🚒vLLM Deployment-Server-Flags, Engine-Argumente & Optionen

Einige wichtige Server-Flags, die zu verwenden sind, finden Sie unter vLLM

🦥Unsloth-Finetunes in vLLM bereitstellen

Nach dem Fine-Tuning Fine-tuning Guide oder unter Verwendung unserer Notebooks unter Unsloth-Notebooks, können Sie Ihre Modelle direkt über vLLM in einem einzigen Workflow speichern oder bereitstellen. Ein Beispielskript für ein Unsloth-Finetuning z. B.:

Um für vLLM in 16-Bit zu speichern, verwenden Sie:

Nur die LoRA-Adapter speichern, verwenden Sie entweder:

Oder verwenden Sie einfach unsere eingebaute Funktion dafür:

Um auf 4-Bit zu mergen, um auf HuggingFace zu laden, rufen Sie zuerst merged_4bitauf. Verwenden Sie dann merged_4bit_forced wenn Sie sich sicher sind, dass Sie auf 4-Bit mergen möchten. Ich rate dringend davon ab, es sei denn, Sie wissen, was Sie mit dem 4-Bit-Modell vorhaben (z. B. für DPO-Training oder für HuggingFaces Online-Inferenz-Engine).

Um das finetunte Modell anschließend in vLLM in einem anderen Terminal zu laden:

Möglicherweise müssen Sie den vollständigen Pfad angeben, wenn das Obige nicht funktioniert, z. B.:

Siehe weitere Inhalte:

Zuletzt aktualisiert

War das hilfreich?