SGLang デプロイ & 推論ガイド
LLM を SGLang に保存してプロダクションで提供するためのデプロイガイド
💻SGLangのインストール
# 任意: 仮想環境を使用
python -m venv unsloth_env
source unsloth_env/bin/activate
# Rust、outlines-core、次にSGLangをインストール
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env && sudo apt-get install -y pkg-config libssl-dev
pip install --upgrade pip && pip install uv
uv pip install "sglang" && uv pip install unslothdocker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model-path unsloth/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000🐛SGLangインストール問題のデバッグ
🚚SGLangモデルのデプロイ

🦥SGLangでのUnslothファインチューンのデプロイ
🚃gpt-oss-20b: Unsloth & SGLang デプロイガイド
💎FP8 オンライン量子化
⚡SGLangのベンチマーク

バッチ/入力/出力
TTFT (秒)
ITL (秒)
入力スループット
出力スループット
🏃SGLang インタラクティブオフラインモード
🎇SGLangにおけるGGUF
🎬SGLangによる高スループットなGGUF提供
最終更新
役に立ちましたか?

