vLLM エンジン引数
vLLMエンジンの引数、フラグ、モデルをvLLMで提供するためのオプション。
--gpu-memory-utilization
デフォルトは0.9。vLLMが使用できるVRAM使用率。メモリ不足が発生する場合は減らしてください。0.95や0.97に設定してみてください。
--max-model-len
最大シーケンス長を設定します。メモリ不足が発生する場合はこれを減らしてください!例えば、次のように設定します --max-model-len 32768 は32Kのシーケンス長のみを使用するための設定です。
--quantization
動的なfloat8量子化にfp8を使用します。これをと併用してください --kv-cache-dtype fp8はfloat8のKVキャッシュも有効にします。
--kv-cache-dtype
使用する fp8 はメモリ使用量を50%削減するfloat8のKVキャッシュ用です。
--port
デフォルトは8000。vLLMのローカルホストへのアクセス方法例: http://localhost:8000
--api-key
オプション - モデルにアクセスするためのパスワード(またはパスワードなし)を設定します。
--tensor-parallel-size
デフォルトは1。テンソル単位でモデルを分割します。使用しているGPUの数に合わせて設定してください — 例えば4台なら4に、8台なら8に設定します。NCCLが必要で、ないと遅くなる可能性があります。
--pipeline-parallel-size
デフォルトは1。レイヤー単位でモデルを分割します。と併用してください --pipeline-parallel-size ここでTPは各ノード内で使われ、PPはマルチノード構成で使われます(PPはノード数に設定してください)
--enable-lora
LoRA提供を有効にします。UnslothでファインチューニングされたLoRAの提供に便利です。
--max-loras
同時に提供したいLoRAの数。1つなら1に、例えば16なら16に設定します。これはキューなのでLoRAをホットスワップできます。
--max-lora-rank
すべてのLoRAの最大ランク。選択肢は次のとおりです 8, 16, 32, 64, 128, 256, 320, 512
--dtype
を許可します auto, bfloat16, float16 Float8やその他の量子化は別のフラグを使用します — 詳細はご覧ください --quantization
--tokenizer
トークナイザーのパスを指定します(例) unsloth/gpt-oss-20b 提供するモデルが異なるトークナイザーを持っている場合に使用します。
--hf-token
ゲート付きモデル用に必要ならHuggingFaceトークンを追加します
--swap-space
デフォルトは4GB。CPUオフローディングの使用量。VRAMがある場合は減らし、メモリの少ないGPUでは増やしてください。
--seed
vLLMのデフォルトは0です
--disable-log-stats
スループットやサーバーリクエストなどのログ記録を無効にします。
--enforce-eager
コンパイルを無効にします。ロードは速くなりますが推論は遅くなります。
--disable-cascade-attn
vLLM < 0.11.0 の強化学習実行に有用です。Cascade AttentionはA100 GPUでやや不安定でした(Unslothがこれを修正します)
🎉Float8量子化
例えば、Float8のKVキャッシュと量子化を使ってLlama 3.3 70B Instruct(128Kのコンテキスト長をサポート)をホストするには、次を試してください:
🍧LoRAのホットスワップ / 動的LoRA
同時に最大4つの LoRA をホットスワップ(切り替え)できるようにするには、まずホットスワップを許可する環境フラグを設定します:
私たちのドキュメントをご覧ください LoRA ホットスワップガイド で詳細を確認できます。
最終更新
役に立ちましたか?

