SGLang Deployment & Inference Anleitung
Anleitung zum Speichern und Bereitstellen von LLMs in SGLang zum Servieren von LLMs in der Produktion
💻SGLang installieren
# OPTIONAL eine virtuelle Umgebung verwenden
python -m venv unsloth_env
source unsloth_env/bin/activate
# Rust, outlines-core und dann SGLang installieren
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env && sudo apt-get install -y pkg-config libssl-dev
pip install --upgrade pip && pip install uv
uv pip install "sglang" && uv pip install unslothdocker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model-path unsloth/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000🐛Fehlerbehebung bei SGLang-Installationsproblemen
🚚SGLang-Modelle bereitstellen

🦥Unsloth-Finetunes in SGLang bereitstellen
🚃gpt-oss-20b: Unsloth- & SGLang-Bereitstellungsanleitung
💎FP8 Online-Quantisierung
⚡SGLang-Benchmarking

Batch/Eingabe/Ausgabe
TTFT (s)
ITL (s)
Eingabe-Durchsatz
Ausgabe-Durchsatz
🏃SGLang interaktiver Offline-Modus
🎇GGUFs in SGLang
🎬Hoher Durchsatz beim Serving von GGUFs mit SGLang
Zuletzt aktualisiert
War das hilfreich?

