vLLM 引擎参数
vLLM 引擎参数、标志、选项,用于在 vLLM 上部署模型。
--gpu-memory-utilization
默认 0.9。vLLM 可使用的显存占比。若出现内存不足则降低该值。可以尝试设置为 0.95 或 0.97。
--max-model-len
设置最大序列长度。若出现内存不足请减小该值!例如设置 --max-model-len 32768 以仅使用 32K 序列长度。
--quantization
使用 fp8 进行动态 float8 量化。与 --kv-cache-dtype fp8 一起使用以启用 float8 KV 缓存。
--kv-cache-dtype
使用 fp8 作为 float8 KV 缓存可将内存使用量减少约 50%。
--port
默认是 8000。如何访问 vLLM 的本地地址,例如 http://localhost:8000
--api-key
可选 - 设置访问模型的密码(或不设置密码)。
--tensor-parallel-size
默认是 1。将模型在张量维度上拆分。设置为你使用的 GPU 数量 - 如果有 4 块 GPU 就设为 4;8 块就设为 8。需要有 NCCL,否则可能会很慢。
--pipeline-parallel-size
默认是 1。将模型在层维度上拆分。与 --pipeline-parallel-size 一起使用,其中 TP 用于每个节点内部,PP 用于跨多节点设置(将 PP 设为节点数)
--enable-lora
启用 LoRA 服务。适用于部署 Unsloth 微调的 LoRA。
--max-loras
同时想要部署的 LoRA 数量。设置为 1 表示 1 个 LoRA,或例如 16。它是一个队列,因此 LoRA 可以热插拔。
--max-lora-rank
所有 LoRA 的最大秩。可能的选项有 8, 16, 32, 64, 128, 256, 320, 512
--dtype
允许 auto, bfloat16, float16 Float8 和其他量化使用不同的标志 - 参见 --quantization
--tokenizer
指定分词器路径,例如 unsloth/gpt-oss-20b 如果所部署的模型使用不同的分词器时使用。
--hf-token
如需访问受限模型,请添加你的 HuggingFace 令牌
--swap-space
默认是 4GB。用于 CPU 卸载。若有显存可减少,显存较低的 GPU 可增加该值。
--seed
vLLM 的默认值为 0
--disable-log-stats
禁用诸如吞吐量、服务器请求等日志记录。
--enforce-eager
禁用编译。加载更快,但推理更慢。
--disable-cascade-attn
对于 vLLM < 0.11.0 的强化学习运行很有用,因为 Cascade Attention 在 A100 GPU 上有些小问题(Unsloth 已修复此问题)
🎉Float8 量化
例如,要使用 Float8 KV 缓存和量化托管 Llama 3.3 70B Instruct(支持 128K 上下文长度),可以尝试:
🍧LoRA 热插拔 / 动态 LoRA
要启用最多同时热插拔(更换)4 个 LoRA 的 LoRA 服务,首先设置环境标志以允许热插拔:
参见我们的 LoRA 热插拔指南 以获取更多详情。
最后更新于
这有帮助吗?

