llama-server と OpenAI 互換エンドポイントのデプロイガイド
OpenAI 互換エンドポイントで llama-server を介してデプロイする方法
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
local_dir = "Devstral-2-123B-Instruct-2512-GGUF",
allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
)

❔Llama-serverの仕様
🧰llama-serverでのツール呼び出し
最終更新
役に立ちましたか?

