vLLM 引擎参数

vLLM 引擎参数、标志、选项，用于在 vLLM 上部署模型。

参数

示例与使用场景

--gpu-memory-utilization

默认 0.9。vLLM 可使用的显存占比。若出现内存不足则降低该值。可以尝试设置为 0.95 或 0.97。

--max-model-len

设置最大序列长度。若出现内存不足请减小该值！例如设置 --max-model-len 32768 以仅使用 32K 序列长度。

--quantization

使用 fp8 进行动态 float8 量化。与 --kv-cache-dtype fp8 一起使用以启用 float8 KV 缓存。

--kv-cache-dtype

使用 fp8 作为 float8 KV 缓存可将内存使用量减少约 50%。

--port

默认是 8000。如何访问 vLLM 的本地地址，例如 http://localhost:8000

--api-key

可选 - 设置访问模型的密码（或不设置密码）。

--tensor-parallel-size

默认是 1。将模型在张量维度上拆分。设置为你使用的 GPU 数量 - 如果有 4 块 GPU 就设为 4；8 块就设为 8。需要有 NCCL，否则可能会很慢。

--pipeline-parallel-size

默认是 1。将模型在层维度上拆分。与 --pipeline-parallel-size 一起使用，其中 TP 用于每个节点内部，PP 用于跨多节点设置（将 PP 设为节点数）

--enable-lora

启用 LoRA 服务。适用于部署 Unsloth 微调的 LoRA。

--max-loras

同时想要部署的 LoRA 数量。设置为 1 表示 1 个 LoRA，或例如 16。它是一个队列，因此 LoRA 可以热插拔。

--max-lora-rank

所有 LoRA 的最大秩。可能的选项有 8, 16, 32, 64, 128, 256, 320, 512

--dtype

允许 auto, bfloat16, float16 Float8 和其他量化使用不同的标志 - 参见 --quantization

--tokenizer

指定分词器路径，例如 unsloth/gpt-oss-20b 如果所部署的模型使用不同的分词器时使用。

--hf-token

如需访问受限模型，请添加你的 HuggingFace 令牌

--swap-space

默认是 4GB。用于 CPU 卸载。若有显存可减少，显存较低的 GPU 可增加该值。

--seed

vLLM 的默认值为 0

--disable-log-stats

禁用诸如吞吐量、服务器请求等日志记录。

--enforce-eager

禁用编译。加载更快，但推理更慢。

--disable-cascade-attn

对于 vLLM < 0.11.0 的强化学习运行很有用，因为 Cascade Attention 在 A100 GPU 上有些小问题（Unsloth 已修复此问题）

🎉Float8 量化

例如，要使用 Float8 KV 缓存和量化托管 Llama 3.3 70B Instruct（支持 128K 上下文长度），可以尝试：

vllm serve unsloth/Llama-3.3-70B-Instruct \
    --quantization fp8 \
    --kv-cache-dtype fp8
    --gpu-memory-utilization 0.97 \
    --max-model-len 65536

🍧LoRA 热插拔 / 动态 LoRA

要启用最多同时热插拔（更换）4 个 LoRA 的 LoRA 服务，首先设置环境标志以允许热插拔：

参见我们的 LoRA 热插拔指南以获取更多详情。

上一页vLLM 下一页LoRA 热插拔指南

最后更新于3个月前

这有帮助吗？

hashtag🎉Float8 量化

hashtag🍧LoRA 热插拔 / 动态 LoRA

🎉Float8 量化

🍧LoRA 热插拔 / 动态 LoRA