llama-server & OpenAI-Endpunkt-Bereitstellungsanleitung

Bereitstellung via llama-server mit einem OpenAI-kompatiblen Endpunkt

Wir werden Devstral-2 bereitstellen - siehe Devstral 2 für weitere Details zum Modell.

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Bei Verwendung von --jinja fügt llama-server die folgende Systemnachricht hinzu, wenn Tools unterstützt werden: Antworte im JSON-Format, entweder mit tool_call (eine Anfrage zum Aufrufen von Tools) oder mit response als Antwort auf die Anfrage des Benutzers . Dies verursacht manchmal Probleme mit Fine-Tunes! Siehe das llama.cpp Repository für weitere Details.

Lade zuerst Devstral 2 herunter:

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    local_dir = "Devstral-2-123B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
)

Um Devstral 2 für die Produktion bereitzustellen, verwenden wir llama-server In einem neuen Terminal, z. B. via tmux, deploye das Modell via:

./llama.cpp/llama-server \
    --model Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Devstral-Small-2-24B-Instruct-2512" \
    --threads -1 \
    --n-gpu-layers 999 \
    --prio 3 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

Wenn du das Obige ausführst, erhältst du:

Dann in einem neuen Terminal, nachdem du pip install openai, mache:

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Devstral-Small-2-24B-Instruct-2512",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)

Was einfach 4 ausgeben wird. Du kannst zum llama-server Bildschirm zurückkehren und möglicherweise einige Statistiken sehen, die interessant sein könnten:

Für Argumente wie die Verwendung von speculative decoding siehe https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.md

❔Eigenheiten von Llama-server

Bei Verwendung von --jinja fügt llama-server die folgende Systemnachricht hinzu, wenn Tools unterstützt werden: Antworte im JSON-Format, entweder mit tool_call (eine Anfrage zum Aufrufen von Tools) oder mit response als Antwort auf die Anfrage des Benutzers . Dies verursacht manchmal Probleme mit Fine-Tunes! Siehe das llama.cpp Repository für weitere Details. Du kannst dies mit folgendem Befehl stoppen --no-jinja aber dann Tools werden nicht mehr unterstützt. Zum Beispiel verwendet FunctionGemma standardmäßig:
```
Sie sind ein Modell, das Funktionsaufrufe mit den folgenden Funktionen durchführen kann
```
Aber aufgrund der zusätzlichen Nachricht, die llama-server anhängt, erhalten wir:
```
Du bist ein Modell, das Funktionsaufrufe mit den folgenden Funktionen durchführen kann\n\nAntworte im JSON-Format, entweder mit `tool_call` (eine Anfrage zum Aufrufen von Tools) oder mit `response` als Antwort auf die Anfrage des Benutzers
```
Wir haben das Problem gemeldet an https://github.com/ggml-org/llama.cpp/issues/18323 und die Entwickler von llama.cpp arbeiten an einer Lösung! In der Zwischenzeit füge bitte für alle Fine-Tunes die Aufforderung speziell für Tool-Aufrufe hinzu!

🧰Tool-Aufrufe mit llama-server

Tool Calling mit GLM 4.7 Tool Calling Guide wie man Tool-Aufrufe durchführt!

VorherigeUnsloth-Inferenz NächsteRun LLMs on your Phone

Zuletzt aktualisiert vor 8 Stunden

War das hilfreich?

hashtag❔Eigenheiten von Llama-server

hashtag🧰Tool-Aufrufe mit llama-server

❔Eigenheiten von Llama-server

🧰Tool-Aufrufe mit llama-server