openai如何使用 OpenAI Codex 本地运行 LLM

在您的设备上本地使用 OpenAI Codex 运行开源模型。

本指南将引导您将开放 LLM 本地连接到 Codex CLI 完全在本地。它适用于任何与 OpenAI API 兼容的本地模型设置,包括:DeepSeek、Qwen、Gemma 等。

在本教程中,我们将使用 GLM-4.7-Flasharrow-up-right (一个 30B MoE、具代理能力和编码能力的模型),它在 24GB RAM/统一内存设备上运行良好,用于使用 Unslotharrow-up-right。更喜欢其他模型?替换为 任何其他模型arrow-up-right ,只需在脚本中更新模型名称即可。

openaiOpenAI Codex 教程

对于模型量化,我们将使用 Unsloth 动态 GGUFsarrow-up-right ,以便您在尽可能保留质量的同时运行量化的 GGUF 模型。

我们将使用 llama.cpparrow-up-right,这是一个用于在 macOS、Linux 和 Windows 上运行 LLM 的开源运行时。它的 llama-server 组件允许您通过单个高效的 与 OpenAI 兼容的 HTTP 端点来提供模型。在此设置中,模型在 端口 8001上提供,所有代理工具调用都通过该端点路由。

📖 #1:设置教程

1

安装 llama.cpp

我们需要安装 llama.cpp 来部署/提供可在 Codex 等中使用的本地 LLM。我们遵循官方构建说明以获得正确的 GPU 绑定和最佳性能。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果您没有 GPU 或只想使用 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

在本地下载并使用模型

通过以下方式下载模型: huggingface_hub 在 Python 中(在通过以下命令安装后): pip install huggingface_hub hf_transfer)。我们使用 UD-Q4_K_XL 量化以在体积/准确性之间取得最佳平衡。您可以在我们的 集合中找到所有 Unsloth 的 GGUF 上传。如果下载卡住,请参见 Hugging Face Hub、XET 调试

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

启动 Llama-server

要为具代理能力的工作负载部署 GLM-4.7-Flash,我们使用 llama-server。我们应用 Z.ai 推荐的采样参数(温度 1.0, top_p 0.95)并启用 --jinja 以支持正确的工具调用。

在新终端中运行此命令(使用 tmux 或打开新终端)。以下命令应当 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果您看到性能很差,请减少 --ctx-size 。我们使用了 --cache-type-k q8_0 --cache-type-v q8_0 用于 KV 缓存量化以减少 VRAM 使用。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai OpenAI Codex CLI 教程

Codex arrow-up-right是 OpenAI 官方的本地运行的编码代理。虽然为 ChatGPT 设计,但它支持自定义 API 端点,使其非常适合本地 LLM。对于在 Windowsarrow-up-right 上安装——最好使用 WSL。

安装

Mac(Homebrew):

brew install --cask codex

通用(NPM)用于 Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

配置

首次运行 codex 以登录和设置,然后在以下位置创建或编辑配置文件: ~/.codex/config.toml (Mac/Linux)或 %USERPROFILE%\.codex\config.toml (Windows)。

使用 cat > ~/.codex/config.toml 用于 Linux / Mac:

导航到您的项目文件夹(mkdir project ; cd project)并运行:

或者允许执行任意代码。 (注意:这将使 Codex 在未经任何批准的情况下随意执行代码!)

您将会看到:

circle-exclamation

尝试此提示来安装并运行一个简单的 Unsloth 微调:

然后您将看到:

如果我们再等久一点,最终我们会得到:

最后更新于

这有帮助吗?