vLLM-Bereitstellungs- & Inferenz-Anleitung

Anleitung zum Speichern und Bereitstellen von LLMs in vLLM zur Produktion von LLM-Services

💻vLLM installieren

Für NVIDIA-GPUs verwenden Sie uv und führen Sie aus:

Bauen Sie dann vLLM:
pip install uv
uv pip install -U vllm --torch-backend=auto

Für AMD-GPUs verwenden Sie bitte das Nightly-Docker-Image: rocm/vllm-dev:nightly

Für den Nightly-Branch für NVIDIA-GPUs führen Sie aus:

Bauen Sie dann vLLM:
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

Siehe vLLM-Dokumentation https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb

🚚vLLM-Modelle bereitstellen

Nachdem Sie Ihr Fine-Tuning gespeichert haben, können Sie einfach Folgendes tun:

vllm serve unsloth/gpt-oss-120b

🚒vLLM Deployment-Server-Flags, Engine-Argumente & Optionen

Einige wichtige Server-Flags, die zu verwenden sind, finden Sie unter vLLM

🦥Unsloth-Finetunes in vLLM bereitstellen

Nach dem Fine-Tuning Fine-tuning Guide oder unter Verwendung unserer Notebooks unter Unsloth-Notebooks, können Sie Ihre Modelle direkt über vLLM in einem einzigen Workflow speichern oder bereitstellen. Ein Beispielskript für ein Unsloth-Finetuning z. B.:

from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    ] # Mehr Modelle unter https://huggingface.co/unsloth
    max_seq_length = 2048,
    load_in_4bit = True,
)
model = FastLanguageModel.get_peft_model(model)

Um für vLLM in 16-Bit zu speichern, verwenden Sie:

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## ODER zum Hochladen zu HuggingFace:
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

Nur die LoRA-Adapter speichern, verwenden Sie entweder:

model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")

Oder verwenden Sie einfach unsere eingebaute Funktion dafür:

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "lora")
## ODER zum Hochladen zu HuggingFace
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

Um auf 4-Bit zu mergen, um auf HuggingFace zu laden, rufen Sie zuerst merged_4bitauf. Verwenden Sie dann merged_4bit_forced wenn Sie sich sicher sind, dass Sie auf 4-Bit mergen möchten. Ich rate dringend davon ab, es sei denn, Sie wissen, was Sie mit dem 4-Bit-Modell vorhaben (z. B. für DPO-Training oder für HuggingFaces Online-Inferenz-Engine).

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_4bit")
## Zum Hochladen zu HuggingFace:
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_4bit", token = "")

Um das finetunte Modell anschließend in vLLM in einem anderen Terminal zu laden:

vllm serve finetuned_model

Möglicherweise müssen Sie den vollständigen Pfad angeben, wenn das Obige nicht funktioniert, z. B.:

vllm serve /mnt/disks/daniel/finetuned_model

Siehe weitere Inhalte:

vLLM-Engine-Argumente

LoRA Hot-Swapping-Anleitung

VorherigeSpekulative Decodierung NächstevLLM-Engine-Argumente

Zuletzt aktualisiert vor 2 Monaten

War das hilfreich?

hashtag💻vLLM installieren

hashtag🚚vLLM-Modelle bereitstellen

hashtag🚒vLLM Deployment-Server-Flags, Engine-Argumente & Optionen

hashtag🦥Unsloth-Finetunes in vLLM bereitstellen

hashtagvLLM-Engine-Argumente

hashtagLoRA Hot-Swapping-Anleitung