Guide de déploiement & d'inférence vLLM

Guide sur la sauvegarde et le déploiement de LLM vers vLLM pour servir des LLM en production

💻Installation de vLLM

Pour les GPU NVIDIA, utilisez uv et exécutez :

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto

Pour les GPU AMD, veuillez utiliser l'image Docker nightly : rocm/vllm-dev:nightly

Pour la branche nightly pour les GPU NVIDIA, exécutez :

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

Voir docs vLLMarrow-up-right pour plus de détails

🚚Déploiement des modèles vLLM

Après avoir sauvegardé votre fine-tune, vous pouvez simplement faire :

vllm serve unsloth/gpt-oss-120b

🚒Options, arguments et flags du serveur de déploiement vLLM

Quelques flags importants du serveur à utiliser se trouvent à vLLM

🦥Déploiement des finetunes Unsloth dans vLLM

Après le fine-tuning Fine-tuning Guide ou en utilisant nos notebooks à Notebooks Unsloth, vous pouvez sauvegarder ou déployer vos modèles directement via vLLM dans un seul flux de travail. Un exemple de script de finetuning Unsloth par ex :

Pour sauvegarder en 16 bits pour vLLM, utilisez :

Pour sauvegarder seulement les adaptateurs LoRA, utilisez soit :

Ou utilisez simplement notre fonction intégrée pour le faire :

Pour fusionner en 4 bits afin de charger sur HuggingFace, appelez d'abord merged_4bit. Puis utilisez merged_4bit_forced si vous êtes certain de vouloir fusionner en 4 bits. Je vous le déconseille fortement, sauf si vous savez ce que vous allez faire avec le modèle 4 bits (par ex. pour l'entraînement DPO ou pour le moteur d'inférence en ligne de HuggingFace)

Puis pour charger le modèle finetuné dans vLLM dans un autre terminal :

Vous devrez peut-être fournir le chemin complet si ce qui précède ne fonctionne pas, par ex :

Voir autre contenu :

Mis à jour

Ce contenu vous a-t-il été utile ?