code如何在本地使用 Claude Code 与 OpenAI Codex 运行 LLM

在本地运行 Claude Code 和 OpenAI Codex 的指南。

本分步指南向您展示如何将开放式 LLM 完全在本地连接到 Claude Code 和 Codex,并附带截图。可使用 DeepSeek、Qwen 和 Gemma 等任意开放模型运行。

在本教程中,我们将使用 GLM-4.7-Flash,这是截至 2026 年 1 月最强的 30B MoE 自动化与编码模型,用于自主微调 LLM,与 Unslotharrow-up-right。您可以替换为 任何其他模型,只需在脚本中更新模型名称即可。

Claude Code 教程OpenAI Codex 教程

我们使用 llama.cpparrow-up-right ,这是一个在 Mac、Linux、Windows 等设备上运行 LLM 的开源框架。Llama.cpp 包含 llama-server ,它允许您高效地服务和部署 LLM。模型将通过端口 8001 提供服务,所有代理工具通过单一与 OpenAI 兼容的端点路由。

对于模型量化,我们将使用 Unsloth 的 动态 GGUF 来运行任何经过量化的 LLM,同时尽可能保留准确性。

📖 第 1 步:安装 Llama.cpp 教程

1

我们需要安装 llama.cpp 以部署/服务本地 LLM 以在 Codex 等中使用。我们遵循官方构建说明以获取正确的 GPU 绑定和最大性能。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

在本地下载并使用模型

通过以下方式下载模型 huggingface_hub 在 Python 中(在通过安装 pip install huggingface_hub hf_transfer之后)。我们使用 UD-Q4_K_XL 量化以在尺寸/准确性之间取得最佳平衡。您可以在我们的 集合 在此处.

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

启动 Llama-server

为了部署 GLM-4.7-Flash 以执行代理工作负载,我们使用 llama-server。我们采用 Z.ai 推荐的采样参数(温度 1.0, top_p 0.95)并启用 --jinja 以支持正确的工具调用。

在新终端中运行此命令(使用 tmux 或打开一个新终端)。下面的配置应该 完全适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果您看到性能不佳,请减小 --ctx-size 。我们使用了 --cache-type-k q8_0 --cache-type-v q8_0 用于 KV 缓存量化以减少显存使用。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --fit on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --jinja \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

👾 Claude Code 教程

Claude Code 是 Anthropic 的终端内代理式编码工具,它能理解您的代码库并通过自然语言处理复杂的 Git 工作流。

安装 Claude Code 并在本地运行

curl -fsSL https://claude.ai/install.sh | bash
# 或通过 Homebrew:brew install --cask claude-code

配置

设置 ANTHROPIC_BASE_URL 环境变量以将 Claude Code 重定向到您的本地 llama.cpp 服务器:

export ANTHROPIC_BASE_URL="http://localhost:8001"

另外,您可能需要设置 ANTHROPIC_API_KEY 取决于服务器。例如:

export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

会话 与 持久化: 上述命令仅适用于当前终端。要在新终端中保持生效:

export 行添加到 ~/.bashrc (bash)或 ~/.zshrc (zsh)。

如果您看到 Unable to connect to API (ConnectionRefused) ,请记得通过取消设置来移除 ANTHROPIC_BASE_URL 使用 unset ANTHROPIC_BASE_URL

缺少 API 密钥

如果您看到此消息,请设置 export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

🌟在 Linux / Mac / Windows 上本地运行 Claude Code

circle-check

导航到您的项目文件夹(mkdir project ; cd project)并运行:

要设置 Claude Code 在不需要任何批准的情况下执行命令,请执行 (注意:这将使 Claude Code 在没有任何审批的情况下随意执行和运行代码!)

尝试此提示以安装并运行一个简单的 Unsloth 微调:

等待片刻后,Unsloth 将通过 uv 安装到 venv 中并被加载:

最后您将看到使用 Unsloth 成功微调的模型!

IDE 扩展(VS Code / Cursor)

您也可以通过官方扩展在编辑器中直接使用 Claude Code:

或者,按下 Ctrl+Shift+X (Windows/Linux)或 Cmd+Shift+X (Mac),搜索 Claude Code,然后点击 安装.

如果您看到 Unable to connect to API (ConnectionRefused) ,请记得通过取消设置来移除 ANTHROPIC_BASE_URL 使用 unset ANTHROPIC_BASE_URL

👾 OpenAI Codex CLI 教程

Codex arrow-up-right是 OpenAI 官方的本地运行的编码代理。虽然为 ChatGPT 设计,但它支持自定义 API 端点,非常适合本地 LLM。参见 https://developers.openai.com/codex/windows/arrow-up-right 以在 Windows 上安装——最好使用 WSL。

安装

Mac(Homebrew):

通用(NPM)适用于 Linux

配置

首次运行 codex 以登录并设置,然后在以下位置创建或编辑配置文件 ~/.codex/config.toml (Mac/Linux)或 %USERPROFILE%\.codex\config.toml (Windows)。

使用 cat > ~/.codex/config.toml 用于 Linux / Mac:

导航到您的项目文件夹(mkdir project ; cd project)并运行:

或允许执行任何代码。 (注意:这将使 Codex 在没有任何审批的情况下随意执行和运行代码!)

您将看到:

circle-exclamation

尝试此提示以安装并运行一个简单的 Unsloth 微调:

然后您将看到:

如果我们再等一会儿,最终我们会得到:

最后更新于

这有帮助吗?