llama-server と OpenAI 互換エンドポイントのデプロイガイド

OpenAI 互換エンドポイントで llama-server を介してデプロイする方法

私たちはDevstral-2を展開する予定です - 詳細は Devstral 2 モデルの詳細については。

最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
circle-info

使用する場合 --jinja toolsがサポートされている場合、llama-serverは次のシステムメッセージを追加します: JSON形式で応答してください。tool_call(ツールを呼び出す要求)か、ユーザーの要求へのresponseで応答してください 。これは時々ファインチューンで問題を引き起こします!詳しくは llama.cpp リポジトリarrow-up-right で詳細を確認できます。

まずDevstral 2をダウンロードしてください:

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    local_dir = "Devstral-2-123B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
)

本番用に Devstral 2 をデプロイするには、我々は llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

上記を実行すると、次が得られます:

その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:

これは単に4を出力します。 llama-serverの画面に戻ると、興味深い統計情報が表示されるかもしれません:

推測的デコーディングなどの引数については、参照してください https://github.com/ggml-org/llama.cpp/blob/master/tools/server/README.mdarrow-up-right

Llama-serverの仕様

  • 使用する場合 --jinja toolsがサポートされている場合、llama-serverは次のシステムメッセージを追加します: JSON形式で応答してください。tool_call(ツールを呼び出す要求)か、ユーザーの要求へのresponseで応答してください 。これは時々ファインチューンで問題を引き起こします!詳しくは llama.cpp リポジトリarrow-up-right 詳細について。 これを停止するには、次を使用してください --no-jinja ただしその場合は tools がサポートされなくなります。 例えばFunctionGemmaはデフォルトで次を使用します:

    しかしllama-serverが追加のメッセージを付けるため、次のようになります:

    私たちはこの問題をに報告しました https://github.com/ggml-org/llama.cpp/issues/18323arrow-up-right そしてllama.cppの開発者たちは修正に取り組んでいます! その間、すべてのファインチューンについて、ツール呼び出し用のプロンプトを明示的に追加してください!

🧰llama-serverでのツール呼び出し

詳細については Tool Calling Guide ツール呼び出しを行う方法について!

最終更新

役に立ちましたか?