vLLM 引擎参数

vLLM 引擎参数、标志、选项,用于在 vLLM 上部署模型。

参数
示例与使用场景

--gpu-memory-utilization

默认 0.9。vLLM 可使用的显存占比。若出现内存不足则降低该值。可以尝试设置为 0.95 或 0.97。

--max-model-len

设置最大序列长度。若出现内存不足请减小该值!例如设置 --max-model-len 32768 以仅使用 32K 序列长度。

--quantization

使用 fp8 进行动态 float8 量化。与 --kv-cache-dtype fp8 一起使用以启用 float8 KV 缓存。

--kv-cache-dtype

使用 fp8 作为 float8 KV 缓存可将内存使用量减少约 50%。

--port

默认是 8000。如何访问 vLLM 的本地地址,例如 http://localhost:8000

--api-key

可选 - 设置访问模型的密码(或不设置密码)。

--tensor-parallel-size

默认是 1。将模型在张量维度上拆分。设置为你使用的 GPU 数量 - 如果有 4 块 GPU 就设为 4;8 块就设为 8。需要有 NCCL,否则可能会很慢。

--pipeline-parallel-size

默认是 1。将模型在层维度上拆分。与 --pipeline-parallel-size 一起使用,其中 TP 用于每个节点内部,PP 用于跨多节点设置(将 PP 设为节点数)

--enable-lora

启用 LoRA 服务。适用于部署 Unsloth 微调的 LoRA。

--max-loras

同时想要部署的 LoRA 数量。设置为 1 表示 1 个 LoRA,或例如 16。它是一个队列,因此 LoRA 可以热插拔。

--max-lora-rank

所有 LoRA 的最大秩。可能的选项有 8, 16, 32, 64, 128, 256, 320, 512

--dtype

允许 auto, bfloat16, float16 Float8 和其他量化使用不同的标志 - 参见 --quantization

--tokenizer

指定分词器路径,例如 unsloth/gpt-oss-20b 如果所部署的模型使用不同的分词器时使用。

--hf-token

如需访问受限模型,请添加你的 HuggingFace 令牌

--swap-space

默认是 4GB。用于 CPU 卸载。若有显存可减少,显存较低的 GPU 可增加该值。

--seed

vLLM 的默认值为 0

--disable-log-stats

禁用诸如吞吐量、服务器请求等日志记录。

--enforce-eager

禁用编译。加载更快,但推理更慢。

--disable-cascade-attn

对于 vLLM < 0.11.0 的强化学习运行很有用,因为 Cascade Attention 在 A100 GPU 上有些小问题(Unsloth 已修复此问题)

🎉Float8 量化

例如,要使用 Float8 KV 缓存和量化托管 Llama 3.3 70B Instruct(支持 128K 上下文长度),可以尝试:

🍧LoRA 热插拔 / 动态 LoRA

要启用最多同时热插拔(更换)4 个 LoRA 的 LoRA 服务,首先设置环境标志以允许热插拔:

参见我们的 LoRA 热插拔指南 以获取更多详情。

最后更新于

这有帮助吗?