SGLang 部署与推理指南
关于将 LLM 保存并部署到 SGLang 以在生产中提供服务的指南
💻安装 SGLang
# 可选 使用虚拟环境
python -m venv unsloth_env
source unsloth_env/bin/activate
# 安装 Rust、outlines-core 然后安装 SGLang
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env && sudo apt-get install -y pkg-config libssl-dev
pip install --upgrade pip && pip install uv
uv pip install "sglang" && uv pip install unslothdocker run --gpus all \
--shm-size 32g \
-p 30000:30000 \
-v ~/.cache/huggingface:/root/.cache/huggingface \
--env "HF_TOKEN=<secret>" \
--ipc=host \
lmsysorg/sglang:latest \
python3 -m sglang.launch_server --model-path unsloth/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000🐛调试 SGLang 安装问题
🚚部署 SGLang 模型

🦥 在 SGLang 中部署 Unsloth 微调模型
🚃gpt-oss-20b:Unsloth 与 SGLang 部署指南
💎FP8 在线量化
⚡ SGLang 基准测试

批次/输入/输出
TTFT(秒)
ITL(秒)
输入吞吐量
输出吞吐量
🏃SGLang 交互式离线模式
🎇SGLang 中的 GGUF
🎬使用 SGLang 提供高吞吐量的 GGUF 服务
最后更新于
这有帮助吗?

