screwdriver-wrenchTool-Calling-Anleitung für lokale LLMs

Tool-Aufrufe sind, wenn einem LLM erlaubt wird, bestimmte Funktionen auszulösen (wie „meine Dateien durchsuchen“, „einen Taschenrechner ausführen“ oder „eine API aufrufen“), indem es eine strukturierte Anfrage sendet, anstatt die Antwort im Text zu erraten. Sie verwenden Tool-Aufrufe, weil sie die Ausgaben zuverlässiger und aktueller machen, und sie dem Modell erlauben reale Aktionen durchzuführen (Systeme abzufragen, Fakten zu verifizieren, Schemata durchzusetzen) statt zu halluzinieren.

In diesem Tutorial lernen Sie, wie Sie lokale LLMs über Tool Calling mit Beispielen für Mathematik, Geschichten, Python-Code und Terminalfunktionen verwenden. Die Inferenz erfolgt lokal über llama.cpp, llama-server und OpenAI-Endpunkte.

Unsere Anleitung sollte für nahezu jedes Modell einschließlich:

Qwen3-Coder-Next TutorialGLM-4.7-Flash Tutorial

🔨Tool-Calling-Einrichtung

Unser erster Schritt ist, das neueste zu erhalten llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

In einem neuen Terminal (bei Verwendung von tmux: STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Dann verwenden wir die unten stehenden Funktionen (kopieren, einfügen und ausführen), die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes Modell aufrufen:

circle-info

In diesem Beispiel verwenden wir Devstral 2. Beim Wechseln eines Modells stellen Sie sicher, dass Sie die korrekten Sampling-Parameter verwenden. Sie können alle in unseren Anleitungen hier.

Nun zeigen wir mehrere Methoden zur Ausführung von Tool-Calling für viele verschiedene Anwendungsfälle unten:

Eine Geschichte schreiben:

Mathematische Operationen:

Generierten Python-Code ausführen

Beliebige Terminalbefehle ausführen

🌠 Qwen3-Coder-Next Tool Calling

In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Anschließend verwenden wir die untenstehenden Funktionen, die die Funktionsaufrufe automatisch parsen und den OpenAI-Endpunkt für jedes LLM aufrufen:

Nun zeigen wir mehrere Methoden zur Ausführung von Tool-Calling für viele verschiedene Anwendungsfälle unten:

Generierten Python-Code ausführen

Beliebige Terminalbefehle ausführen

Wir bestätigen, dass die Datei erstellt wurde — und das wurde sie!

GLM-4.7-Flash + GLM 4.7 Aufrufe

Wir laden zuerst herunter GLM-4.7 oder GLM-4.7-Flash via etwas Python-Code und starten es dann über llama-server in einem separaten Terminal (z. B. mit tmux). In diesem Beispiel laden wir das große GLM-4.7-Modell herunter:

Wenn Sie es erfolgreich ausgeführt haben, sollten Sie Folgendes sehen:

Starten Sie es nun über llama-server in einem neuen Terminal. Verwenden Sie tmux, wenn Sie möchten:

Und Sie werden erhalten:

Nun in einem neuen Terminal und beim Ausführen von Python-Code: Zur Erinnerung, führen Sie aus Tool Calling Guide Wir verwenden GLM 4.7s optimale Parameter temperature = 0.7 und top_p = 1.0

Tool-Aufruf für mathematische Operationen für GLM 4.7

Tool-Aufruf zum Ausführen generierten Python-Codes für GLM 4.7

📙 Devstral 2 Tool Calling

Wir laden zuerst herunter Devstral 2 via etwas Python-Code und starten es dann über llama-server in einem separaten Terminal (z. B. mit tmux):

Wenn Sie es erfolgreich ausgeführt haben, sollten Sie Folgendes sehen:

Starten Sie es nun über llama-server in einem neuen Terminal. Verwenden Sie tmux, wenn Sie möchten:

Sie werden Folgendes sehen, wenn es erfolgreich war:

Wir rufen das Modell dann mit der folgenden Nachricht und mit Devstrals vorgeschlagenen Parametern von temperature = 0.15 auf. Zur Erinnerung auszuführen Tool Calling Guide

Zuletzt aktualisiert

War das hilfreich?