Guide de déploiement & d'inférence SGLang
Guide sur la sauvegarde et le déploiement de LLM vers SGLang pour servir des LLM en production
💻Installation de SGLang
# OPTIONNEL : utilisez un environnement virtuel
python -m venv unsloth_env
source unsloth_env/bin/activate
# Installez Rust, outlines-core puis SGLang
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env && sudo apt-get install -y pkg-config libssl-dev
pip install --upgrade pip && pip install uv
uv pip install "sglang" && uv pip install unslothdocker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model-path unsloth/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000🐛Débogage des problèmes d'installation de SGLang
🚚Déploiement des modèles SGLang

🦥Déploiement des finetunes Unsloth dans SGLang
🚃gpt-oss-20b : Guide de déploiement Unsloth & SGLang
💎Quantification FP8 en ligne
⚡Benchmarking SGLang

Batch/Entrée/Sortie
TTFT (s)
ITL (s)
Débit d'entrée
Débit de sortie
🏃Mode interactif hors ligne SGLang
🎇GGUFs dans SGLang
🎬Service GGUF à haut débit avec SGLang
Mis à jour
Ce contenu vous a-t-il été utile ?

