vLLM 部署与推理指南

关于将 LLM 保存并部署到 vLLM 以在生产中提供服务的指南

💻安装 vLLM

对于 NVIDIA GPU,使用 uv 并运行:

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto

对于 AMD GPU,请使用 nightly Docker 镜像: rocm/vllm-dev:nightly

对于 NVIDIA GPU 的 nightly 分支,运行:

pip install --upgrade pip
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly

参见 vLLM 文档arrow-up-right 了解更多细节

🚚部署 vLLM 模型

在保存微调后,你可以简单地执行:

vllm serve unsloth/gpt-oss-120b

🚒vLLM 部署服务器标志、引擎参数与选项

一些重要的服务器标志在 vLLM

🦥 在 vLLM 中部署 Unsloth 微调

微调完成后 Fine-tuning Guide 或使用我们的笔记本在 Unsloth 笔记本,你可以通过 vLLM 在单个工作流程中直接保存或部署你的模型。下面是一个示例 Unsloth 微调脚本,例如:

要以 16 位保存以供 vLLM 使用,使用:

仅保存 LoRA 适配器,可选择使用:

或者直接使用我们的内置函数来完成:

要合并为 4bit 以在 HuggingFace 上加载,首先调用 merged_4bit。然后使用 merged_4bit_forced 如果你确定要合并为 4bit 才使用。我强烈不建议这样做,除非你确切知道如何使用该 4bit 模型(例如用于 DPO 训练或 HuggingFace 的在线推理引擎)。

然后在另一个终端中在 vLLM 中加载微调模型:

如果上面不起作用,你可能需要提供完整路径,例如:

参见其他内容:

最后更新于

这有帮助吗?