openai如何在本地使用 OpenAI Codex 运行 LLM

在本地设备上使用 OpenAI Codex 使用开源模型。

本指南将引导您将开放式大语言模型本地连接到 Codex CLI 完全本地。它可与任何 OpenAI 或兼容 API 的本地模型设置一起使用,包括:DeepSeek、Qwen、Gemma 等。

在本教程中,我们将使用 GLM-4.7-Flasharrow-up-right (一个 30B MoE、具有代理能力和编码能力的模型),它可以很好地在 24GB RAM/统一内存设备上运行,以使用 Unslotharrow-up-right。更喜欢其他模型?请替换为 任何其他模型arrow-up-right ,只需在脚本中更新模型名称。

openaiOpenAI Codex 教程

对于模型量化,我们将使用 Unsloth 动态 GGUFsarrow-up-right ,这样您可以在尽可能保持质量的同时运行量化的 GGUF 模型。

我们将使用 llama.cpparrow-up-right,这是一个用于在 macOS、Linux 和 Windows 上运行大语言模型的开源运行时。它的 llama-server 组件让您可以通过单一 兼容 OpenAI 的 HTTP 端点高效地提供模型。在此设置中,模型在 端口 8001上提供,所有代理工具调用都通过该端点路由。

📖 #1:设置教程

1

安装 llama.cpp

我们需要安装 llama.cpp 以部署/提供本地 LLM 供 Codex 等使用。我们遵循官方构建说明以获得正确的 GPU 绑定和最佳性能。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想使用 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后按常规继续 - Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

本地下载并使用模型

通过以下方式下载模型 huggingface_hub 在 Python 中(在通过以下命令安装之后 pip install huggingface_hub hf_transfer)。我们使用 UD-Q4_K_XL 量化以获得最佳的大小/准确性平衡。您可以在我们的 集合在此处找到所有 Unsloth GGUF 上传。如果下载卡住,参见 Hugging Face Hub、XET 调试

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

启动 Llama-server

为了部署 GLM-4.7-Flash 用于具有代理能力的工作负载,我们使用 llama-server。我们应用 Z.ai 推荐的采样参数(temp 1.0, top_p 0.95)并启用 --jinja 以支持正确的工具调用。

在新终端中运行此命令(使用 tmux 或打开新的终端)。下面的命令应当 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果您看到性能不佳,请减少 --ctx-size 。我们使用了 --cache-type-k q8_0 --cache-type-v q8_0 用于 KV 缓存量化以减少显存使用。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

openai OpenAI Codex CLI 教程

Codex arrow-up-right是 OpenAI 官方在本地运行的编码代理。尽管为 ChatGPT 设计,但它支持自定义 API 端点,使其非常适合本地 LLM。对于在 Windowsarrow-up-right 上安装——最好使用 WSL。

安装

Mac(Homebrew):

brew install --cask codex

通用(NPM)适用于 Linux

apt update
apt install nodejs npm -y
npm install -g @openai/codex

配置

首次运行 codex 以登录并设置,然后在以下位置创建或编辑配置文件 ~/.codex/config.toml (Mac/Linux)或 %USERPROFILE%\.codex\config.toml (Windows)。

使用 cat > ~/.codex/config.toml 用于 Linux / Mac:

导航到您的项目文件夹(mkdir project ; cd project)并运行:

或者允许执行任何代码。 (注意:这将使 Codex 在没有任何批准的情况下随意执行代码!)

您将看到:

circle-exclamation

尝试此提示以安装并运行一个简单的 Unsloth 微调:

然后您将看到:

如果我们再等一会儿,最终我们会看到:

最后更新于

这有帮助吗?