Guide de déploiement & d'inférence vLLM

Guide sur la sauvegarde et le déploiement de LLM vers vLLM pour servir des LLM en production

💻Installation de vLLM

Pour les GPU NVIDIA, utilisez uv et exécutez :

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto

Pour les GPU AMD, veuillez utiliser l'image Docker nightly : rocm/vllm-dev:nightly

Pour la branche nightly pour les GPU NVIDIA, exécutez :

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

Voir docs vLLM pour plus de détails

🚚Déploiement des modèles vLLM

Après avoir sauvegardé votre fine-tune, vous pouvez simplement faire :

vllm serve unsloth/gpt-oss-120b

🚒Options, arguments et flags du serveur de déploiement vLLM

Quelques flags importants du serveur à utiliser se trouvent à vLLM

🦥Déploiement des finetunes Unsloth dans vLLM

Après le fine-tuning Fine-tuning Guide ou en utilisant nos notebooks à Notebooks Unsloth, vous pouvez sauvegarder ou déployer vos modèles directement via vLLM dans un seul flux de travail. Un exemple de script de finetuning Unsloth par ex :

from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gpt-oss-20b",
    max_seq_length = 2048,
    load_in_4bit = True,
)
model = FastLanguageModel.get_peft_model(model)

Pour sauvegarder en 16 bits pour vLLM, utilisez :

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## OU pour téléverser sur HuggingFace :
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

Pour sauvegarder seulement les adaptateurs LoRA, utilisez soit :

model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")

Ou utilisez simplement notre fonction intégrée pour le faire :

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "lora")
## OU pour téléverser sur HuggingFace
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

Pour fusionner en 4 bits afin de charger sur HuggingFace, appelez d'abord merged_4bit. Puis utilisez merged_4bit_forced si vous êtes certain de vouloir fusionner en 4 bits. Je vous le déconseille fortement, sauf si vous savez ce que vous allez faire avec le modèle 4 bits (par ex. pour l'entraînement DPO ou pour le moteur d'inférence en ligne de HuggingFace)

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_4bit")
## Pour téléverser sur HuggingFace :
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_4bit", token = "")

Puis pour charger le modèle finetuné dans vLLM dans un autre terminal :

vllm serve finetuned_model

Vous devrez peut-être fournir le chemin complet si ce qui précède ne fonctionne pas, par ex :

vllm serve /mnt/disks/daniel/finetuned_model

Voir autre contenu :

Arguments du moteur vLLM

Guide de permutation à chaud LoRA

PrécédentDécodage spéculatif SuivantArguments du moteur vLLM

Mis à jour il y a 2 mois

Ce contenu vous a-t-il été utile ?

hashtag💻Installation de vLLM

hashtag🚚Déploiement des modèles vLLM

hashtag🚒Options, arguments et flags du serveur de déploiement vLLM

hashtag🦥Déploiement des finetunes Unsloth dans vLLM

hashtagArguments du moteur vLLM

hashtagGuide de permutation à chaud LoRA