# Leitfaden für vLLM-Bereitstellung & Inferenz

### :computer:vLLM installieren

Für NVIDIA-GPUs verwenden Sie uv und führen Sie aus:

```bash
Bauen Sie dann vLLM:
pip install uv
uv pip install -U vllm --torch-backend=auto
```

Für AMD-GPUs verwenden Sie bitte das Nightly-Docker-Image: `rocm/vllm-dev:nightly`

Für den Nightly-Branch für NVIDIA-GPUs führen Sie aus:

{% code overflow="wrap" %}

```bash
Bauen Sie dann vLLM:
pip install uv
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
```

{% endcode %}

Siehe [vLLM-Dokumentation](https://docs.vllm.ai/en/stable/getting_started/installation) <https://github.com/edamamez/Unsloth-AMD-Fine-Tuning-Synthetic-Data/blob/main/tutorial.ipynb>

### :truck:vLLM-Modelle bereitstellen

Nachdem Sie Ihr Fine-Tuning gespeichert haben, können Sie einfach Folgendes tun:

```bash
vllm serve unsloth/gpt-oss-120b
```

### :fire\_engine:vLLM Deployment-Server-Flags, Engine-Argumente & Optionen

Einige wichtige Server-Flags, die zu verwenden sind, finden Sie unter [#vllm-deployment-server-flags-engine-arguments-and-options](#vllm-deployment-server-flags-engine-arguments-and-options "mention")

### 🦥Unsloth-Finetunes in vLLM bereitstellen

Nach dem Fine-Tuning [Fine-tuning Guide](/docs/de/loslegen/fine-tuning-llms-guide.md) oder unter Verwendung unserer Notebooks unter [Unsloth-Notebooks](/docs/de/loslegen/unsloth-notebooks.md), können Sie Ihre Modelle direkt über vLLM in einem einzigen Workflow speichern oder bereitstellen. Ein Beispielskript für ein Unsloth-Finetuning z. B.:

```python
from unsloth import FastLanguageModel
import torch
model, tokenizer = FastLanguageModel.from_pretrained(
    ] # Mehr Modelle unter https://huggingface.co/unsloth
    max_seq_length = 2048,
    load_in_4bit = True,
)
model = FastLanguageModel.get_peft_model(model)
```

**Um für vLLM in 16-Bit zu speichern, verwenden Sie:**

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_16bit")
## ODER zum Hochladen zu HuggingFace:
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_16bit", token = "")
```

{% endcode %}

**Nur die LoRA-Adapter speichern**, verwenden Sie entweder:

```python
model.save_pretrained("finetuned_lora")
tokenizer.save_pretrained("finetuned_lora")
```

Oder verwenden Sie einfach unsere eingebaute Funktion dafür:

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "lora")
## ODER zum Hochladen zu HuggingFace
model.push_to_hub_merged("hf/model", tokenizer, save_method = "lora", token = "")
```

{% endcode %}

Um auf 4-Bit zu mergen, um auf HuggingFace zu laden, rufen Sie zuerst `merged_4bit`auf. Verwenden Sie dann `merged_4bit_forced` wenn Sie sich sicher sind, dass Sie auf 4-Bit mergen möchten. Ich rate dringend davon ab, es sei denn, Sie wissen, was Sie mit dem 4-Bit-Modell vorhaben (z. B. für DPO-Training oder für HuggingFaces Online-Inferenz-Engine).

{% code overflow="wrap" %}

```python
model.save_pretrained_merged("finetuned_model", tokenizer, save_method = "merged_4bit")
## Zum Hochladen zu HuggingFace:
model.push_to_hub_merged("hf/model", tokenizer, save_method = "merged_4bit", token = "")
```

{% endcode %}

Um das finetunte Modell anschließend in vLLM in einem anderen Terminal zu laden:

```bash
vllm serve finetuned_model
```

Möglicherweise müssen Sie den vollständigen Pfad angeben, wenn das Obige nicht funktioniert, z. B.:

```bash
vllm serve /mnt/disks/daniel/finetuned_model
```

Siehe weitere Inhalte:

### [vLLM-Engine-Argumente](/docs/de/grundlagen/inference-and-deployment/vllm-guide/vllm-engine-arguments.md)

### [Leitfaden zum Hot-Swapping von LoRA](/docs/de/grundlagen/inference-and-deployment/vllm-guide/lora-hot-swapping-guide.md)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/grundlagen/inference-and-deployment/vllm-guide.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
