# vLLMエンジン引数

vLLMエンジンの引数、フラグ、モデルをvLLMで提供するためのオプション。

<table><thead><tr><th width="212.9000244140625">引数</th><th>例とユースケース</th></tr></thead><tbody><tr><td><strong><code>--gpu-memory-utilization</code></strong></td><td>デフォルトは0.9。vLLMが使用できるVRAM使用率。メモリ不足が発生する場合は減らしてください。0.95や0.97に設定してみてください。</td></tr><tr><td><strong><code>--max-model-len</code></strong></td><td>最大シーケンス長を設定します。メモリ不足が発生する場合はこれを減らしてください！例えば、次のように設定します <strong><code>--max-model-len 32768</code></strong> は32Kのシーケンス長のみを使用するための設定です。</td></tr><tr><td><strong><code>--quantization</code></strong></td><td>動的なfloat8量子化にfp8を使用します。これをと併用してください <strong><code>--kv-cache-dtype</code></strong> fp8はfloat8のKVキャッシュも有効にします。</td></tr><tr><td><strong><code>--kv-cache-dtype</code></strong></td><td>使用する <code>fp8</code> はメモリ使用量を50%削減するfloat8のKVキャッシュ用です。</td></tr><tr><td><strong><code>--port</code></strong></td><td>デフォルトは8000。vLLMのローカルホストへのアクセス方法例: http://localhost:8000</td></tr><tr><td><strong><code>--api-key</code></strong></td><td>オプション - モデルにアクセスするためのパスワード（またはパスワードなし）を設定します。</td></tr><tr><td><strong><code>--tensor-parallel-size</code></strong></td><td>デフォルトは1。テンソル単位でモデルを分割します。使用しているGPUの数に合わせて設定してください — 例えば4台なら4に、8台なら8に設定します。NCCLが必要で、ないと遅くなる可能性があります。</td></tr><tr><td><strong><code>--pipeline-parallel-size</code></strong></td><td>デフォルトは1。レイヤー単位でモデルを分割します。と併用してください <strong><code>--pipeline-parallel-size</code></strong> ここでTPは各ノード内で使われ、PPはマルチノード構成で使われます（PPはノード数に設定してください）</td></tr><tr><td><strong><code>--enable-lora</code></strong></td><td>LoRA提供を有効にします。UnslothでファインチューニングされたLoRAの提供に便利です。</td></tr><tr><td><strong><code>--max-loras</code></strong></td><td>同時に提供したいLoRAの数。1つなら1に、例えば16なら16に設定します。これはキューなのでLoRAをホットスワップできます。</td></tr><tr><td><strong><code>--max-lora-rank</code></strong></td><td>すべてのLoRAの最大ランク。選択肢は次のとおりです <code>8</code>, <code>16</code>, <code>32</code>, <code>64</code>, <code>128</code>, <code>256</code>, <code>320</code>, <code>512</code></td></tr><tr><td><strong><code>--dtype</code></strong></td><td>を許可します <code>auto</code>, <code>bfloat16</code>, <code>float16</code> Float8やその他の量子化は別のフラグを使用します — 詳細はご覧ください <code>--quantization</code></td></tr><tr><td><strong><code>--tokenizer</code></strong></td><td>トークナイザーのパスを指定します（例） <code>unsloth/gpt-oss-20b</code> 提供するモデルが異なるトークナイザーを持っている場合に使用します。</td></tr><tr><td><strong><code>--hf-token</code></strong></td><td>ゲート付きモデル用に必要ならHuggingFaceトークンを追加します</td></tr><tr><td><strong><code>--swap-space</code></strong></td><td>デフォルトは4GB。CPUオフローディングの使用量。VRAMがある場合は減らし、メモリの少ないGPUでは増やしてください。</td></tr><tr><td><strong><code>--seed</code></strong></td><td>vLLMのデフォルトは0です</td></tr><tr><td><strong><code>--disable-log-stats</code></strong></td><td>スループットやサーバーリクエストなどのログ記録を無効にします。</td></tr><tr><td><strong><code>--enforce-eager</code></strong></td><td>コンパイルを無効にします。ロードは速くなりますが推論は遅くなります。</td></tr><tr><td><strong><code>--disable-cascade-attn</code></strong></td><td>vLLM &#x3C; 0.11.0 の強化学習実行に有用です。Cascade AttentionはA100 GPUでやや不安定でした（Unslothがこれを修正します）</td></tr></tbody></table>

### :tada:Float8量子化

例えば、Float8のKVキャッシュと量子化を使ってLlama 3.3 70B Instruct（128Kのコンテキスト長をサポート）をホストするには、次を試してください：

```bash
vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536
```

### :shaved\_ice:LoRAのホットスワップ / 動的LoRA

同時に最大4つの LoRA をホットスワップ（切り替え）できるようにするには、まずホットスワップを許可する環境フラグを設定します：

私たちのドキュメントをご覧ください [lora-hot-swapping-guide](https://unsloth.ai/docs/jp/ji-ben/inference-and-deployment/vllm-guide/lora-hot-swapping-guide "mention") で詳細を確認できます。
