# vLLM エンジン引数

vLLMエンジンの引数、フラグ、モデルをvLLMで提供するためのオプション。

<table><thead><tr><th width="212.9000244140625">引数</th><th>例とユースケース</th></tr></thead><tbody><tr><td><strong><code>--gpu-memory-utilization</code></strong></td><td>デフォルトは0.9。vLLMが使用できるVRAM使用率。メモリ不足が発生する場合は減らしてください。0.95や0.97に設定してみてください。</td></tr><tr><td><strong><code>--max-model-len</code></strong></td><td>最大シーケンス長を設定します。メモリ不足が発生する場合はこれを減らしてください！例えば、次のように設定します <strong><code>--max-model-len 32768</code></strong> は32Kのシーケンス長のみを使用するための設定です。</td></tr><tr><td><strong><code>--quantization</code></strong></td><td>動的なfloat8量子化にfp8を使用します。これをと併用してください <strong><code>--kv-cache-dtype</code></strong> fp8はfloat8のKVキャッシュも有効にします。</td></tr><tr><td><strong><code>--kv-cache-dtype</code></strong></td><td>使用する <code>fp8</code> はメモリ使用量を50%削減するfloat8のKVキャッシュ用です。</td></tr><tr><td><strong><code>--port</code></strong></td><td>デフォルトは8000。vLLMのローカルホストへのアクセス方法例: http://localhost:8000</td></tr><tr><td><strong><code>--api-key</code></strong></td><td>オプション - モデルにアクセスするためのパスワード（またはパスワードなし）を設定します。</td></tr><tr><td><strong><code>--tensor-parallel-size</code></strong></td><td>デフォルトは1。テンソル単位でモデルを分割します。使用しているGPUの数に合わせて設定してください — 例えば4台なら4に、8台なら8に設定します。NCCLが必要で、ないと遅くなる可能性があります。</td></tr><tr><td><strong><code>--pipeline-parallel-size</code></strong></td><td>デフォルトは1。レイヤー単位でモデルを分割します。と併用してください <strong><code>--pipeline-parallel-size</code></strong> ここでTPは各ノード内で使われ、PPはマルチノード構成で使われます（PPはノード数に設定してください）</td></tr><tr><td><strong><code>--enable-lora</code></strong></td><td>LoRA提供を有効にします。UnslothでファインチューニングされたLoRAの提供に便利です。</td></tr><tr><td><strong><code>--max-loras</code></strong></td><td>同時に提供したいLoRAの数。1つなら1に、例えば16なら16に設定します。これはキューなのでLoRAをホットスワップできます。</td></tr><tr><td><strong><code>--max-lora-rank</code></strong></td><td>すべてのLoRAの最大ランク。選択肢は次のとおりです <code>8</code>, <code>16</code>, <code>32</code>, <code>64</code>, <code>128</code>, <code>256</code>, <code>320</code>, <code>512</code></td></tr><tr><td><strong><code>--dtype</code></strong></td><td>を許可します <code>auto</code>, <code>bfloat16</code>, <code>float16</code> Float8やその他の量子化は別のフラグを使用します — 詳細はご覧ください <code>--quantization</code></td></tr><tr><td><strong><code>--tokenizer</code></strong></td><td>トークナイザーのパスを指定します（例） <code>unsloth/gpt-oss-20b</code> 提供するモデルが異なるトークナイザーを持っている場合に使用します。</td></tr><tr><td><strong><code>--hf-token</code></strong></td><td>ゲート付きモデル用に必要ならHuggingFaceトークンを追加します</td></tr><tr><td><strong><code>--swap-space</code></strong></td><td>デフォルトは4GB。CPUオフローディングの使用量。VRAMがある場合は減らし、メモリの少ないGPUでは増やしてください。</td></tr><tr><td><strong><code>--seed</code></strong></td><td>vLLMのデフォルトは0です</td></tr><tr><td><strong><code>--disable-log-stats</code></strong></td><td>スループットやサーバーリクエストなどのログ記録を無効にします。</td></tr><tr><td><strong><code>--enforce-eager</code></strong></td><td>コンパイルを無効にします。ロードは速くなりますが推論は遅くなります。</td></tr><tr><td><strong><code>--disable-cascade-attn</code></strong></td><td>vLLM &#x3C; 0.11.0 の強化学習実行に有用です。Cascade AttentionはA100 GPUでやや不安定でした（Unslothがこれを修正します）</td></tr></tbody></table>

### :tada:Float8量子化

例えば、Float8のKVキャッシュと量子化を使ってLlama 3.3 70B Instruct（128Kのコンテキスト長をサポート）をホストするには、次を試してください：

```bash
vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536
```

### :shaved\_ice:LoRAのホットスワップ / 動的LoRA

同時に最大4つの LoRA をホットスワップ（切り替え）できるようにするには、まずホットスワップを許可する環境フラグを設定します：

私たちのドキュメントをご覧ください [lora-hot-swapping-guide](https://unsloth.ai/docs/jp/ji-ben/inference-and-deployment/vllm-guide/lora-hot-swapping-guide "mention") で詳細を確認できます。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/ji-ben/inference-and-deployment/vllm-guide/vllm-engine-arguments.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
