screwdriver-wrenchローカル LLM 用ツールコーリング ガイド

ツールコーリングとは、LLMがテキストで答えを推測する代わりに、構造化されたリクエストを出力して特定の関数(「ファイルを検索する」「電卓を実行する」「APIを呼び出す」など)をトリガーできるようにすることです。ツールコールを使う理由は、出力が より信頼性が高く最新になること、そしてモデルが 実際の行動を取る (システムにクエリを投げる、事実を検証する、スキーマを強制する)ことで幻覚を起こす代わりになるためです。

このチュートリアルでは、数学、物語、Pythonコード、ターミナル関数の例を用いて、ツールコーリング経由でローカルLLMを使用する方法を学びます。推論は llama.cpp、llama-server、および OpenAI エンドポイントを介してローカルで行われます。

私たちのガイドはほぼ あらゆるモデル に対応します:

Qwen3-Coder-Next チュートリアルGLM-4.7-Flash チュートリアル

🔨ツールコーリングのセットアップ

最初のステップは最新のものを入手することです llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

新しいターミナルで(tmux を使っている場合は CTRL+B+D を使って)、2つの数を足す、Pythonコードを実行する、Linux関数を実行するなどのツールを作成します:

次に以下の関数を使用します(コピー&ペーストして実行)。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します:

circle-info

この例では Devstral 2 を使用しています。モデルを切り替えるときは、正しいサンプリングパラメータを使用していることを確認してください。すべてのパラメータは私たちの ガイドはこちら.

以下では、多くのユースケースに対するツールコーリングの実行方法を複数の方法で紹介します:

物語の執筆:

数学的演算:

生成された Python コードを実行する

任意のターミナル関数を実行する

🌠 Qwen3-Coder-Next のツールコーリング

新しいターミナルで、2つの数を足す、Pythonコードを実行する、Linux関数を実行するなどのツールを作成します:

その後、以下の関数を使用して、関数呼び出しを自動的に解析し、任意のLLMに対して OpenAI エンドポイントを呼び出します:

以下では、多くのユースケースに対するツールコーリングの実行方法を複数の方法で紹介します:

生成された Python コードを実行する

任意のターミナル関数を実行する

ファイルが作成されたことを確認しました、そして実際に作成されました!

GLM-4.7-Flash + GLM 4.7 呼び出し

まず私たちはをダウンロードします GLM-4.7 または GLM-4.7-Flash いくつかの Python コード経由で、そして別のターミナル(tmux を使用するような)で llama-server 経由で起動します。この例では大きな GLM-4.7 モデルをダウンロードします:

正常に実行された場合、次のような表示がされるはずです:

今、新しいターミナルで llama-server 経由で起動します。必要なら tmux を使用してください:

そして次のようなものが得られます:

今、新しいターミナルで Python コードを実行するときの注意事項として、実行を忘れないでください Tool Calling Guide GLM 4.7 の最適パラメータ temperature = 0.7 および top_p = 1.0 を使用します

GLM 4.7の数学演算のためのツール呼び出し

GLM 4.7の生成されたPythonコードを実行するためのツール呼び出し

📙 Devstral 2 のツールコーリング

まず私たちはをダウンロードします Devstral 2 いくつかの Python コード経由で、そして別のターミナル(tmux を使用するような)で llama-server 経由で起動します:

正常に実行された場合、次のような表示がされるはずです:

今、新しいターミナルで llama-server 経由で起動します。必要なら tmux を使用してください:

成功した場合、以下のように表示されます:

次に、以下のメッセージと Devstral の推奨パラメータである temperature = 0.15 のみを使ってモデルを呼び出します。実行を忘れないでください Tool Calling Guide

最終更新

役に立ちましたか?