code如何在本地使用 Claude Code 与 OpenAI Codex 运行 LLM

在本地设备上运行 Claude Code 和 OpenAI Codex 的指南。

本逐步指南向您展示如何将开放 LLM 完全本地连接到 Claude Code 和 Codex,并附带截图。可使用任何开放模型运行,例如 DeepSeek、Qwen 和 Gemma。

在本教程中,我们将使用 GLM-4.7-Flash,截至 2026 年 1 月,作为最强的 30B MoE 代理与编码模型,用于自主地使用 Unslotharrow-up-right对 LLM 进行微调。您可以替换为 任何其他模型,只需在脚本中更新模型名称即可。

Claude Code 教程OpenAI Codex 教程

我们使用 llama.cpparrow-up-right ,这是一个用于在 Mac、Linux、Windows 等设备上运行 LLM 的开源框架。llama.cpp 包含 llama-server ,它允许您高效地服务和部署 LLM。模型将通过端口 8000 提供服务,所有代理工具都通过单一兼容 OpenAI 的端点路由。

对于模型量化,我们将使用 Unsloth 动态 GGUF 以运行任何被量化的 LLM,同时尽可能保留准确性。

📖 第一步:安装 Llama.cpp 教程

1

我们需要安装 llama.cpp 来部署/服务本地 LLM 以在 Codex 等中使用。我们遵循官方构建说明以获得正确的 GPU 绑定和最大性能。将 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想使用 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

本地下载并使用模型

通过以下方式下载模型 huggingface_hub 在 Python 中(在安装后通过 pip install huggingface_hub hf_transfer)。我们使用 UD-Q4_K_XL 量化以获得最佳的大小/准确性平衡。您可以在我们的 合集在此处arrow-up-right.

找到所有 Unsloth 的 GGUF 上传
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
    snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
)
3

allow_patterns = ["*UD-Q4_K_XL*"],

启动 Llama-server llama-server为将 GLM-4.7-Flash 部署用于代理工作负载,我们使用。我们应用 Z.ai 推荐的采样参数(, temp 1.0top_p 0.95 )并启用 --jinja

以获得适当的工具调用支持。 在新终端中运行此命令(使用 tmux 或打开一个新终端)。下面的配置应该 可以完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果您看到性能不佳,请减小 --ctx-size 。我们使用了 --cache-type-k q8_0 --cache-type-v q8_0

进行 KV 缓存量化以减少显存使用。
    ./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --fit on \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8000 \
    --jinja \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
circle-check

--chat-template-kwargs "{"enable_thinking": false}"

👾 Claude Code 教程

Claude Code 是 Anthropic 的代理式编码工具,运行在您的终端中,理解您的代码库,并通过自然语言处理复杂的 Git 工作流。

Mac / Linux 安装
curl -fsSL https://claude.ai/install.sh | bash

# 或通过 Homebrew: brew install --cask claude-code

配置 设置 ANTHROPIC_BASE_URL llama.cpp 环境变量以将 Claude Code 重定向到您的本地

服务器:

export ANTHROPIC_BASE_URL="http://localhost:8000" 此外,您可能需要根据服务器设置 ANTHROPIC_API_KEY

。例如:

export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234' 会话与持久化:

上面的命令仅适用于当前终端。要在新终端中保持生效: export 行添加到 ~/.bashrc (bash) 或 ~/.zshrc

(zsh)。 如果您看到 无法连接到 API (ConnectionRefused) 设置 ,请记得通过取消设置来移除 使用

unset ANTHROPIC_BASE_URL

缺少 API 密钥 。例如:

🌟$PROFILE

在 Linux / Mac / Windows 本地运行 Claude Code导航到您的项目文件夹(mkdir project ; cd project

claude --model unsloth/GLM-4.7-Flash 要设置 Claude Code 在未经任何批准的情况下执行命令,请使用

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

您只能在当前工作目录 project/ 中工作。不要去搜索 CLAUDE.md——这就是它。通过 uv 在虚拟环境中安装 Unsloth。参见 https://unsloth.ai/docs/get-started/install/pip-install 获取安装方法(获取并阅读)。然后执行 https://github.com/unslothai/unsloth 中描述的一个简单 Unsloth 微调运行。您可使用 1 个 GPU。

等待一会儿后,Unsloth 将通过 uv 安装到 venv 中并被加载:

最终,您将看到一个使用 Unsloth 成功微调的模型!

IDE 扩展(VS Code / Cursor)

Claude Code 在 VS Code 的文档 或者,按下 Ctrl+Shift+X (Windows/Linux)或 Cmd+Shift+X (Mac),搜索Claude Code ,然后点击.

(zsh)。 如果您看到 无法连接到 API (ConnectionRefused) 设置 ,请记得通过取消设置来移除 使用

安装

👾 OpenAI Codex CLI 教程 arrow-up-rightCodex 是 OpenAI 的官方本地运行的编码代理。虽然为 ChatGPT 设计,但它支持自定义 API 端点,使其非常适合本地 LLM。有关在 Windows 上安装的信息,请参见arrow-up-right https://developers.openai.com/codex/windows/

,然后点击

——最好使用 WSL。

brew install --cask codex

# 或通过 Homebrew: brew install --cask claude-code

npm install -g @openai/codex 首次运行 codex 以登录并进行设置,然后在以下位置创建或编辑配置文件 ~/.codex/config.toml (Mac/Linux)或 %USERPROFILE%\.codex\config.toml

(Windows)。 对于 Linux / Mac,请使用 cat > ~/.codex/config.toml

在 Linux / Mac / Windows 本地运行 Claude Code导航到您的项目文件夹(mkdir project ; cd project

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search 或者以允许任何代码执行。

codex --model unsloth/GLM-4.7-Flash -c model_provider=llama_cpp --search --dangerously-bypass-approvals-and-sandbox

circle-exclamation

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

您只能在当前工作目录 project/ 中工作。不要去搜索 AGENTS.md——这就是它。通过 uv 在虚拟环境中安装 Unsloth。参见 https://unsloth.ai/docs/get-started/install/pip-install 获取安装方法(获取并阅读)。然后执行 https://github.com/unslothai/unsloth 中描述的一个简单 Unsloth 微调运行。您可使用 1 个 GPU。

然后您将看到: 和如果我们再多等一会儿,我们最终会得到:

最后更新于

这有帮助吗?