screwdriver-wrenchAnleitung zum Tool-Calling für lokale LLMs

Tool-Calling bedeutet, dass einem LLM erlaubt wird, bestimmte Funktionen auszulösen (wie „durchsuche meine Dateien“, „führe einen Taschenrechner aus“ oder „rufe eine API auf“), indem es eine strukturierte Anfrage sendet, anstatt die Antwort als Fließtext zu raten. Sie verwenden Tool-Calls, weil sie die Ausgaben zuverlässiger und aktueller machen, und sie dem Modell erlauben echte Aktionen auszuführen (Systeme abfragen, Fakten validieren, Schemas durchsetzen) statt zu halluzinieren.

In diesem Tutorial lernen Sie, wie Sie lokale LLMs über Tool Calling mit Beispielen aus den Bereichen Mathematik, Geschichten, Python-Code und Terminal-Funktionen verwenden. Die Inferenz erfolgt lokal über llama.cpp, llama-server und OpenAI-Endpunkte.

Unser Leitfaden sollte für nahezu jedes Modell einschließlich:

Qwen3-Coder-Next TutorialGLM-4.7-Flash Tutorial

🔨Tool-Calling Einrichtung

Unser erster Schritt ist, das neueste zu beschaffen llama.cpp auf GitHub hierarrow-up-right. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

In einem neuen Terminal (bei Verwendung von tmux mit STRG+B+D) erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

"required": ["code"],

circle-info

In diesem Beispiel verwenden wir Devstral 2. Beim Wechsel des Modells stellen Sie sicher, dass Sie die richtigen Sampling-Parameter verwenden. Sie können alle in unseren Anleitungen hier.

Jetzt zeigen wir mehrere Methoden zum Ausführen von Tool-Calling für viele verschiedene Anwendungsfälle unten:

Eine Geschichte schreiben:

Mathematische Operationen:

Generierten Python-Code ausführen

Beliebige Terminal-Funktionen ausführen

🌠 Qwen3-Coder-Next Tool Calling

In einem neuen Terminal erstellen wir einige Tools wie das Addieren von 2 Zahlen, das Ausführen von Python-Code, das Ausführen von Linux-Funktionen und vieles mehr:

Wir verwenden dann die unten stehenden Funktionen, die die Funktionsaufrufe automatisch parsen und für jedes LLM den OpenAI-Endpunkt aufrufen:

Jetzt zeigen wir mehrere Methoden zum Ausführen von Tool-Calling für viele verschiedene Anwendungsfälle unten:

Generierten Python-Code ausführen

Beliebige Terminal-Funktionen ausführen

Wir bestätigen, dass die Datei erstellt wurde — und das wurde sie!

GLM-4.7-Flash + GLM 4.7 Calling

Zuerst laden wir herunter GLM-4.7 oder GLM-4.7-Flash via etwas Python-Code und starten es dann über llama-server in einem separaten Terminal (zum Beispiel mit tmux). In diesem Beispiel laden wir das große GLM-4.7-Modell herunter:

Wenn Sie es erfolgreich ausgeführt haben, sollten Sie sehen:

Starten Sie es nun über llama-server in einem neuen Terminal. Verwenden Sie tmux, wenn Sie möchten:

Und Sie werden bekommen:

Nun in einem neuen Terminal und beim Ausführen von Python-Code, Erinnerung daran auszuführen Tool Calling Guide Wir verwenden GLM 4.7s optimale Parameter temperature = 0.7 und top_p = 1.0

für weitere Details, können wir dann einige Tool-Aufrufe durchführen:

unsloth_inference(messages, temperature = 0.7, top_p = 1.0, top_k = -1, min_p = 0.00)

📙 Devstral 2 Tool Calling

Zuerst laden wir herunter Devstral 2 via etwas Python-Code und starten es dann über llama-server in einem separaten Terminal (zum Beispiel mit tmux):

Wenn Sie es erfolgreich ausgeführt haben, sollten Sie sehen:

Starten Sie es nun über llama-server in einem neuen Terminal. Verwenden Sie tmux, wenn Sie möchten:

Sie werden untenstehendes sehen, wenn es erfolgreich war:

Wir rufen das Modell dann mit der folgenden Nachricht und mit Devstrals vorgeschlagenen Parametern von nur temperature = 0.15 auf. Erinnerung daran, auszuführen Tool Calling Guide

Zuletzt aktualisiert

War das hilfreich?