screwdriver-wrench工具调用 LLM 指南

在本指南中,您将学习如何通过 llama.cpp、llama-server 和 OpenAI 端点使用带有工具调用(Tool Calling)的大型语言模型(LLM)进行推理

我们的指南应适用于我们提供的几乎所有模型,包括:

  1. Qwen3-Coder, Qwen3-Next 以及其他 Qwen 模型

  2. GLM-4.7, GLM-4.7-Flash, GLM-4.6 以及 GLM 4.5

  3. 以及我们几乎所有的 模型目录.

🔨工具调用设置

在一个新终端中(如果使用 tmux,使用 CTRL+B+D),我们创建一些工具,例如相加两个数字、执行 Python 代码、执行 Linux 命令等:

然后我们使用下面的函数(复制粘贴并执行),它们会自动解析函数调用并为任何模型调用 OpenAI 端点:

现在我们将在下面展示多种在不同用例中运行工具调用的方法:

写故事:

数学运算:

执行生成的 Python 代码

执行任意终端命令

🔧 GLM-4.7-Flash + GLM 4.7 调用

我们首先下载 GLM-4.7GLM-4.7-Flash 通过一些 Python 代码,然后在另一个终端(例如使用 tmux)通过 llama-server 启动它。在此示例中我们下载大型 GLM-4.7 模型:

如果成功运行,你应该会看到:

现在在一个新终端通过 llama-server 启动它。如果需要可以使用 tmux:

然后你会得到:

现在在一个新终端并执行 Python 代码,提醒运行 工具调用 LLM 指南 我们使用 GLM 4.7 的最佳参数:temperature = 0.7 和 top_p = 1.0

用于 GLM 4.7 的数学运算工具调用

用于 GLM 4.7 的执行生成 Python 代码的工具调用

⚒️Devstral 2 工具调用

我们首先下载 Devstral 2 通过一些 Python 代码,然后在另一个终端(例如使用 tmux)通过 llama-server 启动它:

如果成功运行,你应该会看到:

现在在一个新终端通过 llama-server 启动它。如果需要可以使用 tmux:

如果成功你将看到如下内容:

然后我们用以下消息调用模型,并仅使用 Devstral 建议的参数 temperature = 0.15。提醒运行 工具调用 LLM 指南

最后更新于

这有帮助吗?