screwdriver-wrenchローカル LLM 用ツールコーリングガイド

ツール呼び出しとは、LLMがテキストで答えを推測する代わりに、構造化されたリクエストを出力して特定の関数(「ファイルを検索する」「電卓を実行する」「APIを呼び出す」など)をトリガーできるようにすることです。ツール呼び出しを使う理由は、出力を より信頼性が高く最新のものにする、そしてモデルに 実際の操作を行わせる (システムに問い合わせ、事実を検証し、スキーマを適用する)ことで幻覚を避けるためです。

本チュートリアルでは、数式、物語、Pythonコード、ターミナル関数の例を使って、ツール呼び出しを介してローカルLLMを使用する方法を学びます。推論はllama.cpp、llama-server、およびOpenAIエンドポイントを経由してローカルで行われます。

本ガイドはほとんど あらゆるモデル に対応するはずです:

Qwen3-Coder-NextチュートリアルGLM-4.7-Flashチュートリアル

🔨ツール呼び出しのセットアップ

最初のステップは最新の〜を入手することです llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

新しいターミナルで(tmuxを使用している場合はCTRL+B+Dを使用)、2つの数を加える、Pythonコードを実行する、Linux関数を実行するなどのツールを作成します:

"description": "The Python code to run",

circle-info

この例ではDevstral 2を使用しています。モデルを切り替える際は、正しいサンプリングパラメータを使用していることを確認してください。すべては私たちの ガイドで確認できます.

以下では、多くの異なるユースケースに対するツール呼び出しの実行方法を複数紹介します:

物語を書く:

数学的演算:

生成されたPythonコードを実行する

任意のターミナル関数を実行する

🌠 Qwen3-Coder-Nextのツール呼び出し

新しいターミナルで、2つの数を加える、Pythonコードを実行する、Linux関数を実行するなどのツールを作成します:

次に、下記の関数を使用して関数呼び出しを自動的に解析し、任意のLLMに対してOpenAIエンドポイントを呼び出します:

以下では、多くの異なるユースケースに対するツール呼び出しの実行方法を複数紹介します:

生成されたPythonコードを実行する

任意のターミナル関数を実行する

ファイルが作成されたことを確認しました、作成されました!

GLM-4.7-Flash + GLM 4.7の呼び出し

まず以下をダウンロードします GLM-4.7 または GLM-4.7-Flash いくつかのPythonコード経由でダウンロードし、別のターミナル(tmuxのようなものを使う)でllama-serverを起動します。この例では大きなGLM-4.7モデルをダウンロードします:

正常に実行できた場合、次のような表示が見られるはずです:

新しいターミナルでllama-serverを起動してください。必要ならtmuxを使用します:

そして次のような結果が得られます:

新しいターミナルでPythonコードを実行する際の注意ですが、実行することを忘れないでください Tool Calling Guide 我々はGLM 4.7の最適パラメータであるtemperature = 0.7およびtop_p = 1.0を使用します

や詳しい情報については

"content": [{"type": "text", "text": "What is today's date plus 3 days?"}],

📙 Devstral 2のツール呼び出し

まず以下をダウンロードします Devstral 2 いくつかのPythonコード経由でダウンロードし、別のターミナル(tmuxのようなものを使う)でllama-serverを起動します:

正常に実行できた場合、次のような表示が見られるはずです:

新しいターミナルでllama-serverを起動してください。必要ならtmuxを使用します:

成功した場合、以下のような表示が見られます:

次にモデルを以下のメッセージで呼び出し、Devstralの推奨パラメータであるtemperature = 0.15のみを使用します。実行することを忘れないでください Tool Calling Guide

最終更新

役に立ちましたか?