vLLM エンジン引数

vLLMエンジンの引数、フラグ、モデルをvLLMで提供するためのオプション。

引数

例とユースケース

--gpu-memory-utilization

デフォルトは0.9。vLLMが使用できるVRAM使用率。メモリ不足が発生する場合は減らしてください。0.95や0.97に設定してみてください。

--max-model-len

最大シーケンス長を設定します。メモリ不足が発生する場合はこれを減らしてください！例えば、次のように設定します --max-model-len 32768 は32Kのシーケンス長のみを使用するための設定です。

--quantization

動的なfloat8量子化にfp8を使用します。これをと併用してください --kv-cache-dtype fp8はfloat8のKVキャッシュも有効にします。

--kv-cache-dtype

使用する fp8 はメモリ使用量を50%削減するfloat8のKVキャッシュ用です。

--port

デフォルトは8000。vLLMのローカルホストへのアクセス方法例: http://localhost:8000

--api-key

オプション - モデルにアクセスするためのパスワード（またはパスワードなし）を設定します。

--tensor-parallel-size

デフォルトは1。テンソル単位でモデルを分割します。使用しているGPUの数に合わせて設定してください — 例えば4台なら4に、8台なら8に設定します。NCCLが必要で、ないと遅くなる可能性があります。

--pipeline-parallel-size

デフォルトは1。レイヤー単位でモデルを分割します。と併用してください --pipeline-parallel-size ここでTPは各ノード内で使われ、PPはマルチノード構成で使われます（PPはノード数に設定してください）

--enable-lora

LoRA提供を有効にします。UnslothでファインチューニングされたLoRAの提供に便利です。

--max-loras

同時に提供したいLoRAの数。1つなら1に、例えば16なら16に設定します。これはキューなのでLoRAをホットスワップできます。

--max-lora-rank

すべてのLoRAの最大ランク。選択肢は次のとおりです 8, 16, 32, 64, 128, 256, 320, 512

--dtype

を許可します auto, bfloat16, float16 Float8やその他の量子化は別のフラグを使用します — 詳細はご覧ください --quantization

--tokenizer

トークナイザーのパスを指定します（例） unsloth/gpt-oss-20b 提供するモデルが異なるトークナイザーを持っている場合に使用します。

--hf-token

ゲート付きモデル用に必要ならHuggingFaceトークンを追加します

--swap-space

デフォルトは4GB。CPUオフローディングの使用量。VRAMがある場合は減らし、メモリの少ないGPUでは増やしてください。

--seed

vLLMのデフォルトは0です

--disable-log-stats

スループットやサーバーリクエストなどのログ記録を無効にします。

--enforce-eager

コンパイルを無効にします。ロードは速くなりますが推論は遅くなります。

--disable-cascade-attn

vLLM < 0.11.0 の強化学習実行に有用です。Cascade AttentionはA100 GPUでやや不安定でした（Unslothがこれを修正します）

🎉Float8量子化

例えば、Float8のKVキャッシュと量子化を使ってLlama 3.3 70B Instruct（128Kのコンテキスト長をサポート）をホストするには、次を試してください：

vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536

🍧LoRAのホットスワップ / 動的LoRA

同時に最大4つの LoRA をホットスワップ（切り替え）できるようにするには、まずホットスワップを許可する環境フラグを設定します：

私たちのドキュメントをご覧ください LoRA ホットスワップガイドで詳細を確認できます。

前へvLLM 次へLoRA ホットスワップガイド

最終更新 2 か月前

役に立ちましたか？

hashtag🎉Float8量子化

hashtag🍧LoRAのホットスワップ / 動的LoRA

🎉Float8量子化

🍧LoRAのホットスワップ / 動的LoRA