claude如何使用 Claude Code 本地运行 LLM

在本地设备上使用 Claude Code 与开源模型的指南。

本逐步指南向您展示如何将开放 LLM 和 API 完全本地连接到 Claude Code,并附带截图。可使用任何开放模型运行,例如 DeepSeek、Qwen 和 Gemma。

在本教程中,我们将使用 GLM-4.7-Flash,截至 2026 年 1 月为最强的 30B MoE 代理与编码模型(在 24GB 内存/统一内存设备上表现良好),用于与 Unslotharrow-up-right一起自主微调 LLM。您可以替换为 任何其他模型,只需在脚本中更新模型名称即可。

claudeClaude Code 教程

我们使用 llama.cpp ,这是一个用于在 Mac、Linux、Windows 等设备上运行 LLM 的开源框架。llama.cpp 包含 llama-server ,它允许您高效地服务和部署 LLM。模型将通过端口 8001 提供服务,所有代理工具通过单一兼容 OpenAI 的端点路由。

对于模型量化,我们将使用 Unsloth 的 动态 GGUF 来运行任何量化的 LLM,同时尽可能保留准确性。

📖 #1:安装教程

1

安装 llama.cpp

我们需要安装 llama.cpp 来部署/服务本地 LLM 以在 Claude Code 等中使用。我们遵循官方的构建说明以获得正确的 GPU 绑定和最佳性能。将 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想使用 CPU 推理。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

本地下载并使用模型

通过以下方式下载模型: huggingface_hub 在 Python 中(在通过以下命令安装之后 pip install huggingface_hub hf_transfer)。我们使用 UD-Q4_K_XL 量化以实现最佳的体积/准确性平衡。您可以在我们的 集合中找到所有 Unsloth 的 GGUF 上传。如果下载卡住,请参见 Hugging Face Hub、XET 调试

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

启动 Llama-server

为了部署用于代理工作负载的 GLM-4.7-Flash,我们使用 llama-server。我们应用 Z.ai 推荐的采样参数(temp 1.0, top_p 0.95)并启用 --jinja 以便支持正确的工具调用。

在新终端中运行此命令(使用 tmux 或打开一个新终端)。如下内容应当 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果您看到性能不佳,请减小 --ctx-size 。我们使用了 --cache-type-k q8_0 --cache-type-v q8_0 对 KV 缓存进行量化以减少显存使用。

./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072
circle-check

claude Claude Code 教程

Claude Code 是 Anthropic 的一种代理式编码工具,运行在终端中,理解您的代码库,并通过自然语言处理复杂的 Git 工作流。

本地安装 Claude Code 并运行

curl -fsSL https://claude.ai/install.sh | bash
# 或通过 Homebrew:brew install --cask claude-code

配置

设置 ANTHROPIC_BASE_URL 环境变量以将 Claude Code 重定向到您的本地 llama.cpp 服务器:

export ANTHROPIC_BASE_URL="http://localhost:8001"

此外,您可能需要设置 ANTHROPIC_API_KEY ,具体取决于服务器。例如:

export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

会话与持久化: 上述命令仅适用于当前终端。要在新终端中持久生效:

export 行添加到 ~/.bashrc (bash)或 ~/.zshrc (zsh)。

如果您看到 Unable to connect to API (ConnectionRefused) ,请记得通过取消设置 ANTHROPIC_BASE_URL 来清除: unset ANTHROPIC_BASE_URL

缺少 API 密钥

如果您看到此提示,请设置 export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

🌟在 Linux / Mac / Windows 本地运行 Claude Code

circle-check

导航到您的项目文件夹(mkdir project ; cd project)并运行:

要设置 Claude Code 在不需任何批准的情况下执行命令,请运行 (注意:这将使 Claude Code 在没有任何批准的情况下自行执行和运行代码!)

尝试此提示以安装并运行一个简单的 Unsloth 微调:

稍等片刻后,Unsloth 将通过 uv 安装在虚拟环境中并被加载:

最后您将看到使用 Unsloth 成功微调的模型!

IDE 扩展(VS Code / Cursor)

您也可以通过官方扩展直接在编辑器内使用 Claude Code:

或者,按下 Ctrl+Shift+X (Windows/Linux)或 Cmd+Shift+X (Mac),搜索 Claude Code,然后点击 安装.

如果您看到 Unable to connect to API (ConnectionRefused) ,请记得通过取消设置 ANTHROPIC_BASE_URL 来清除: unset ANTHROPIC_BASE_URL

最后更新于

这有帮助吗?