vLLM エンジン引数

vLLMエンジンの引数、フラグ、モデルをvLLMで提供するためのオプション。

引数
例とユースケース

--gpu-memory-utilization

デフォルトは0.9。vLLMが使用できるVRAM使用率。メモリ不足が発生する場合は減らしてください。0.95や0.97に設定してみてください。

--max-model-len

最大シーケンス長を設定します。メモリ不足が発生する場合はこれを減らしてください!例えば、次のように設定します --max-model-len 32768 は32Kのシーケンス長のみを使用するための設定です。

--quantization

動的なfloat8量子化にfp8を使用します。これをと併用してください --kv-cache-dtype fp8はfloat8のKVキャッシュも有効にします。

--kv-cache-dtype

使用する fp8 はメモリ使用量を50%削減するfloat8のKVキャッシュ用です。

--port

デフォルトは8000。vLLMのローカルホストへのアクセス方法例: http://localhost:8000

--api-key

オプション - モデルにアクセスするためのパスワード(またはパスワードなし)を設定します。

--tensor-parallel-size

デフォルトは1。テンソル単位でモデルを分割します。使用しているGPUの数に合わせて設定してください — 例えば4台なら4に、8台なら8に設定します。NCCLが必要で、ないと遅くなる可能性があります。

--pipeline-parallel-size

デフォルトは1。レイヤー単位でモデルを分割します。と併用してください --pipeline-parallel-size ここでTPは各ノード内で使われ、PPはマルチノード構成で使われます(PPはノード数に設定してください)

--enable-lora

LoRA提供を有効にします。UnslothでファインチューニングされたLoRAの提供に便利です。

--max-loras

同時に提供したいLoRAの数。1つなら1に、例えば16なら16に設定します。これはキューなのでLoRAをホットスワップできます。

--max-lora-rank

すべてのLoRAの最大ランク。選択肢は次のとおりです 8, 16, 32, 64, 128, 256, 320, 512

--dtype

を許可します auto, bfloat16, float16 Float8やその他の量子化は別のフラグを使用します — 詳細はご覧ください --quantization

--tokenizer

トークナイザーのパスを指定します(例) unsloth/gpt-oss-20b 提供するモデルが異なるトークナイザーを持っている場合に使用します。

--hf-token

ゲート付きモデル用に必要ならHuggingFaceトークンを追加します

--swap-space

デフォルトは4GB。CPUオフローディングの使用量。VRAMがある場合は減らし、メモリの少ないGPUでは増やしてください。

--seed

vLLMのデフォルトは0です

--disable-log-stats

スループットやサーバーリクエストなどのログ記録を無効にします。

--enforce-eager

コンパイルを無効にします。ロードは速くなりますが推論は遅くなります。

--disable-cascade-attn

vLLM < 0.11.0 の強化学習実行に有用です。Cascade AttentionはA100 GPUでやや不安定でした(Unslothがこれを修正します)

🎉Float8量子化

例えば、Float8のKVキャッシュと量子化を使ってLlama 3.3 70B Instruct(128Kのコンテキスト長をサポート)をホストするには、次を試してください:

🍧LoRAのホットスワップ / 動的LoRA

同時に最大4つの LoRA をホットスワップ(切り替え)できるようにするには、まずホットスワップを許可する環境フラグを設定します:

私たちのドキュメントをご覧ください LoRA ホットスワップガイド で詳細を確認できます。

最終更新

役に立ちましたか?