SGLang デプロイメント＆推論ガイド

本番環境で LLM を提供するために LLM を SGLang に保存してデプロイするガイド

任意のLLMやファインチューニング済みモデルを以下を介して提供できます SGLang 低レイテンシ・高スループット推論のために。SGLangは任意のGPU構成でテキスト・画像/ビデオモデルの推論をサポートしており、一部のGGUFもサポートしています。

💻SGLangのインストール

NVIDIA GPU上にSGLangとUnslothをインストールするには、仮想環境内で以下を実行できます（他のPythonライブラリを壊しません）。

# 任意: 仮想環境を使用
python -m venv unsloth_env
source unsloth_env/bin/activate

# Rust、outlines-core、次にSGLangをインストール
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
source $HOME/.cargo/env && sudo apt-get install -y pkg-config libssl-dev
pip install --upgrade pip && pip install uv
uv pip install "sglang" && uv pip install unsloth

に関して Docker セットアップの実行:

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server --model-path unsloth/Llama-3.1-8B-Instruct --host 0.0.0.0 --port 30000

🐛SGLangインストール問題のデバッグ

以下のような表示が出る場合は、Rustとoutlines-coreをで指定されている通りに更新してください SGLang

ヒント: これは通常パッケージまたはビルド環境に問題があることを示します。
  ヘルプ: `outlines-core` (v0.1.26) は `sglang` (v0.5.5.post2) が依存する `outlines` (v0.1.11) が `outlines-core` に依存しているため含まれていました

もし以下のようなFlashinferの問題が表示されたら:

/home/daniel/.cache/flashinfer/0.5.2/100a/generated/batch_prefill_with_kv_cache_dtype_q_bf16_dtype_kv_bf16_dtype_o_bf16_dtype_idx_i32_head_dim_qk_64_head_dim_vo_64_posenc_0_use_swa_False_use_logits_cap_False_f16qk_False/batch_prefill_ragged_kernel_mask_1.cu:1:10: fatal error: flashinfer/attention/prefill.cuh: No such file or directory
    1 | #include <flashinfer/attention/prefill.cuh>
      |          ^~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
コンパイルが終了しました。
ninja: ビルドが停止しました: サブコマンドが失敗しました。

考えられる解決策:
1. --mem-fraction-static を小さい値（例: 0.8 または 0.7）に設定する
2. --cuda-graph-max-bs を小さい値（例: 16）に設定する
3. --enable-torch-compile を使用しないことで torch compile を無効にする
4. --disable-cuda-graph で CUDA グラフを無効にする。（推奨されません。大幅な性能低下）
GitHubでIssueを開いてください https://github.com/sgl-project/sglang/issues/new/choose

flashinferのキャッシュを次で削除してください rm -rf .cache/flashinfer およびエラーメッセージに記載されているディレクトリ、つまり rm -rf ~/.cache/flashinfer

🚚SGLangモデルのデプロイ

例えば任意のモデルをデプロイするには unsloth/Llama-3.2-1B-Instruct以下を別のターミナルで実行してください（そうしないと現在のターミナルがブロックされます。tmuxの利用も可能です）：

python3 -m sglang.launch_server \
    --model-path unsloth/Llama-3.2-1B-Instruct \
    --host 0.0.0.0 --port 30000

その後、OpenAI Chat completionsライブラリを使用してモデルを呼び出すことができます（別のターミナルまたはtmuxを使用）：

# openai を pip install openai でインストール
from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://0.0.0.0:30000/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Llama-3.2-1B-Instruct",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

そして次のような結果が得られます 2 + 2 = 4.

🦥SGLangでのUnslothファインチューンのデプロイ

ファインチューニング後 Fine-tuning Guide または当社のノートブックを使用して Unsloth ノートブックSGLang内で単一のワークフローとしてモデルを直接保存またはデプロイできます。例えば以下のようなUnslothファインチューニングスクリプトの例があります:

from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gpt-oss-20b",
    max_seq_length = 2048,
    load_in_4bit = True,
)
model = FastLanguageModel.get_peft_model(model)

SGLang用に16ビットで保存するには、次を使用してください:

model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## または HuggingFace にアップロードするには：
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")

LoRA アダプタだけを保存するには、いずれかを使用します：

model.save_pretrained("finetuned_model")
tokenizer.save_pretrained("finetuned_model")

または当社の組み込み関数を使ってこれを行うだけでも良いです：

model.save_pretrained_merged("model", tokenizer, save_method = "lora")
## または HuggingFace にアップロードするには
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")

🚃gpt-oss-20b: Unsloth & SGLang デプロイガイド

以下は、をトレーニングして gpt-ossUnslothで-20bを使用してSGLangでデプロイする手順付きのステップバイステップチュートリアルです。複数の量子化フォーマットでの性能ベンチマークを含みます。

Unsloth のファインチューニングとエクスポート形式

ファインチューニングが初めての場合は、私たちのガイドを読むか、gpt-oss 20B ファインチューニングノートブックをで試してみてください gpt-oss トレーニング後、モデルを複数の形式でエクスポートできます:

model.save_pretrained_merged(
    "finetuned_model", 
    tokenizer, 
    save_method = "merged_16bit",
)
## gpt-oss 固有の mxfp4 変換の場合:
model.save_pretrained_merged(
    "finetuned_model", 
    tokenizer, 
    save_method = "mxfp4", # (gpt-oss 専用、そうでなければ "merged_16bit" を選択してください)
)

SGLangでのデプロイ

我々は gpt-oss のファインチューニングをフォルダ "finetuned_model" に保存したので、新しいターミナルでSGLangを使ってファインチューンモデルを推論エンドポイントとして起動できます:

python -m sglang.launch_server \
    --model-path finetuned_model \
    --host 0.0.0.0 --port 30002

次の表示が出るまで少し待つ必要があるかもしれません バッチをキャプチャ中 (bs=1 avail_mem=20.84 GB): !

推論エンドポイントを呼び出しています:

推論エンドポイントを呼び出すには、まず新しいターミナルを起動します。次に以下のようにモデルを呼び出せます:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://0.0.0.0:30002/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "finetuned_model",
    messages = [{"role": "user", "content": "What is 2+2?"},],
)
print(completion.choices[0].message.content)

## 出力 ##
# <|channel|>analysis<|message|>ユーザーは単純な数学の質問をしています。答えは4です。またポリシーに従う必要があります。問題ありません。<|end|><|start|>assistant<|channel|>final<|message|>2 + 2 は 4 です。

💎FP8 オンライン量子化

FP8 オンライン量子化でモデルをデプロイすると、SGLangでスループットが30〜50%向上し、メモリ使用量が50%減少し、コンテキスト長のサポートが2倍に延びます。以下のように設定できます:

python -m sglang.launch_server \
    --model-path unsloth/Llama-3.2-1B-Instruct \
    --host 0.0.0.0 --port 30002 \
    --quantization fp8 \
    --kv-cache-dtype fp8_e4m3

また次も使用できます --kv-cache-dtype fp8_e5m2 これにはより大きなダイナミックレンジがあり、FP8推論で問題が発生した場合に解決する可能性があります。あるいは我々の事前量子化済みのfloat8クオンタイズをで使用してください https://huggingface.co/unsloth/models?search=-fp8 または以下にいくつか記載されています:

unsloth/Llama-3.2-3B-FP8-Dynamic · Hugging Facehuggingface

unsloth/Llama-3.3-70B-Instruct-FP8-Dynamic · Hugging Facehuggingface

⚡SGLangのベンチマーク

以下はファインチューンしたモデルの性能速度をテストするために実行できるコードです:

python -m sglang.launch_server \
    --model-path finetuned_model \
    --host 0.0.0.0 --port 30002

その後、別のターミナルまたはtmuxで:

# バッチサイズ=8、入力=1024、出力=1024
python -m sglang.bench_one_batch_server \
    --model finetuned_model \
    --base-url http://0.0.0.0:30002 \
    --batch-size 8 \
    --input-len 1024 \
    --output-len 1024

ベンチマークが以下のように実行されるのが見えます:

我々は gpt-oss-20b を B200x1 GPU で使用し、以下の結果を得ました（約2,500トークンのスループット）

バッチ/入力/出力

TTFT (秒)

ITL (秒)

入力スループット

出力スループット

8/1024/1024

0.40

3.59

20,718.95

2,562.87

8/8192/1024

0.42

3.74

154,459.01

2,473.84

詳細については https://docs.sglang.ai/advanced_features/server_arguments.html SGLangのサーバー引数についてはこちらを参照してください。

🏃SGLang インタラクティブオフラインモード

Pythonのインタラクティブ環境内で（サーバーではなく）オフラインモードのSGLangも使用できます。

import sglang as sgl
engine = sgl.Engine(model_path = "unsloth/Qwen3-0.6B", random_seed = 42)

prompt = "Today is a sunny day and I like"
sampling_params = {"temperature": 0, "max_new_tokens": 256}
outputs = engine.generate(prompt, sampling_params)["text"]
print(outputs)
engine.shutdown()

🎇SGLangにおけるGGUF

SGLangは興味深くGGUFもサポートしています！ Qwen3 MoEはまだ開発中ですが、大多数のデンスモデル（Llama 3、Qwen 3、Mistralなど）はサポートされています。

まず最新のgguf pythonパッケージを次でインストールしてください:

pip install -e "git+https://github.com/ggml-org/llama.cpp.git#egg=gguf&subdirectory=gguf-py" # リポジトリのサブディレクトリからPythonパッケージをインストール

その後、例えばオフラインモードのSGLangで次を実行できます:

from huggingface_hub import hf_hub_download
model_path = hf_hub_download(
    "unsloth/Qwen3-32B-GGUF",
    filename = "Qwen3-32B-UD-Q4_K_XL.gguf",
)
import sglang as sgl
engine = sgl.Engine(model_path = model_path, random_seed = 42)

prompt = "Today is a sunny day and I like"
sampling_params = {"temperature": 0, "max_new_tokens": 256}
outputs = engine.generate(prompt, sampling_params)["text"]
print(outputs)
engine.shutdown()

🎬SGLangによる高スループットなGGUF提供

まず以下のように特定のGGUFファイルをダウンロードしてください:

from huggingface_hub import hf_hub_download
hf_hub_download("unsloth/Qwen3-32B-GGUF", filename="Qwen3-32B-UD-Q4_K_XL.gguf", local_dir=".")

次に特定のファイルを提供します Qwen3-32B-UD-Q4_K_XL.gguf を確認し、 --served-model-name unsloth/Qwen3-32B また、HuggingFace互換のトークナイザも必要ですので、次を使用してください --tokenizer-path

python -m sglang.launch_server \
    --model-path Qwen3-32B-UD-Q4_K_XL.gguf \
    --host 0.0.0.0 --port 30002 \
    --served-model-name unsloth/Qwen3-32B \
    --tokenizer-path unsloth/Qwen3-32B

前へLinux ターミナルで LM Studio CLI をインストールする方法次へUnsloth 推論

最終更新 1 か月前

役に立ちましたか？

hashtag💻SGLangのインストール

hashtag🐛SGLangインストール問題のデバッグ

hashtag🚚SGLangモデルのデプロイ

hashtag🦥SGLangでのUnslothファインチューンのデプロイ

hashtag🚃gpt-oss-20b: Unsloth & SGLang デプロイガイド

hashtagUnsloth のファインチューニングとエクスポート形式

hashtagSGLangでのデプロイ

hashtag推論エンドポイントを呼び出しています:

hashtag💎FP8 オンライン量子化

hashtag⚡SGLangのベンチマーク

hashtag🏃SGLang インタラクティブオフラインモード

hashtag🎇SGLangにおけるGGUF

hashtag🎬SGLangによる高スループットなGGUF提供