claude如何使用 Claude Code 在本地运行 LLM

在本地设备上使用 Claude Code 使用开源模型的指南。

本逐步指南展示了如何将开源大模型和 API 完全本地连接到 Claude Code,并附有截图。可使用任何开源模型运行,例如 Qwen3.5、DeepSeek 和 Gemma。

在本教程中,我们将使用 Qwen3.5GLM-4.7-Flash。截至 2026 年 3 月,两者都是最强的 35B MoE 具代理性与编码能力的模型(在 24GB RAM/统一内存设备上运行良好),可与 Unslotharrow-up-right配合自主微调 LLM。你可以替换为 任何其他模型,只需在脚本中更新模型名称。

Qwen3.5 教程GLM-4.7-Flash 教程claudeClaude Code 教程

对于模型量化,我们将使用 Unsloth 的 动态 GGUFs 来运行任何量化的 LLM,同时尽可能保留精度。

circle-info

自 2026 年 1 月以来,Claude Code 已发生较大变化。现在有许多更多需要切换的设置和必要功能。

📖 LLM 设置教程

在开始之前,我们首先需要为你将使用的特定模型完成设置。我们使用 llama.cpp 它是一个用于在 Mac、Linux、Windows 等设备上运行 LLM 的开源框架。llama.cpp 包含 llama-server 它允许你高效地部署和服务 LLM。模型将在端口 8001 上提供服务,所有代理工具都通过单一与 OpenAI 兼容的端点路由。

Qwen3.5 教程

我们将使用 Qwen3.5-35B-A3B 及用于快速准确编码任务的特定设置。如果你没有足够的显存并想要一个 更聪明的 模型, Qwen3.5-27B 是个不错的选择,但它大约会慢 ~2 倍,或者你可以使用 Qwen3.5 的其他变体,例如 9B、4B 或 2B。

circle-info

如果你想要一个 更聪明的 模型或显存不足,请使用 Qwen3.5-27B。它比 35B-A3B 大约慢 2 倍。或者你可以使用 Qwen3-Coder-Next 如果你有足够的显存,这个模型非常出色。

1

安装 llama.cpp

我们需要安装 llama.cpp 以便部署/服务本地 LLM 在 Claude Code 等中使用。我们遵循官方构建说明以获取正确的 GPU 绑定和最大性能。若要更改 -DGGML_CUDA=ON-DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

在本地下载并使用模型

通过 huggingface_hub 在 Python 中下载模型(在通过 pip install huggingface_hub hf_transfer安装之后)。我们使用 UD-Q4_K_XL 量化以获得最佳的大小/精度平衡。你可以在我们的 合集这里找到所有 Unsloth 的 GGUF 上传。如果下载卡住,参见 Hugging Face Hub、XET 调试

hf download unsloth/Qwen3.5-35B-A3B-GGUF \
    --local-dir unsloth/Qwen3.5-35B-A3B-GGUF \
    --include "*UD-Q4_K_XL*" # 对于动态 2 比特使用 "*UD-Q2_K_XL*"
circle-check
3

启动 Llama-server

为代理工作负载部署 Qwen3.5 时,我们使用 llama-server。我们应用了 Qwen 推荐的采样参数 用于“思考”模式: temp 0.6, top_p 0.95 , top-k 20。请记住,如果你使用非“思考”模式或其他任务,这些数值会改变。

在新终端中运行此命令(使用 tmux 或打开新的终端)。下面的配置应该 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果你看到性能不佳,请减少 --ctx-size .

triangle-exclamation
./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-35B-A3B-GGUF/Qwen3.5-35B-A3B-UD-Q4_K_XL.gguf \
    --alias "unsloth/Qwen3.5-35B-A3B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 # 根据需要更改
circle-check

GLM-4.7-Flash 教程

1

安装 llama.cpp

我们需要安装 llama.cpp 以便部署/服务本地 LLM 在 Claude Code 等中使用。我们遵循官方构建说明以获取正确的 GPU 绑定和最大性能。若要更改 -DGGML_CUDA=ON-DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认开启。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git-all -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
2

在本地下载并使用模型

通过 huggingface_hub 在 Python 中下载模型(在通过 pip install huggingface_hub hf_transfer安装之后)。我们使用 UD-Q4_K_XL 量化以获得最佳的大小/精度平衡。你可以在我们的 合集这里找到所有 Unsloth 的 GGUF 上传。如果下载卡住,参见 Hugging Face Hub、XET 调试

circle-check
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/GLM-4.7-Flash-GGUF",
    local_dir = "unsloth/GLM-4.7-Flash-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)
3

启动 Llama-server

为代理工作负载部署 GLM-4.7-Flash 时,我们使用 llama-server。我们应用 Z.ai 推荐的采样参数(temp 1.0, top_p 0.95).

在新终端中运行此命令(使用 tmux 或打开新的终端)。下面的配置应该 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果你看到性能不佳,请减少 --ctx-size .

triangle-exclamation
./llama.cpp/llama-server \
    --model unsloth/GLM-4.7-Flash-GGUF/GLM-4.7-Flash-UD-Q4_K_XL.gguf \
    --alias "unsloth/GLM-4.7-Flash" \
    --temp 1.0 \
    --top-p 0.95 \
    --min-p 0.01 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --batch-size 4096 --ubatch-size 1024 \
    --ctx-size 131072 # 根据需要更改
circle-check

claude Claude Code 教程

triangle-exclamation

在完成本地 LLM 的前期设置步骤后,就该设置 Claude Code 了。Claude Code 是 Anthropic 的终端代理编码工具,它理解你的代码库,并通过自然语言处理复杂的 Git 工作流。

安装 Claude Code 并在本地运行它

配置

设置 ANTHROPIC_BASE_URL 环境变量以将 Claude Code 重定向到你的本地 llama.cpp 服务器。

此外,根据服务器,你可能需要设置 ANTHROPIC_API_KEY 例如:

会话与持久化: 上述命令仅适用于当前终端。要在新终端中持久生效:

export 行添加到 ~/.bashrc (bash) 或 ~/.zshrc (zsh)。

circle-exclamation

缺少 API 密钥

如果你看到此提示,请设置 export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

circle-info

如果 Claude Code 在首次运行时仍要求你登录,请添加 "hasCompletedOnboarding": true"primaryApiKey": "sk-dummy-key"~/.claude.json。对于 VS Code 扩展,还需在设置中启用 Disable Login Prompt (或添加 "claudeCode.disableLoginPrompt": true到 settings.json).

🕵️修复 Claude Code 中慢 90% 的推理问题

triangle-exclamation

为了解决此问题,编辑 ~/.claude/settings.json 以包含 CLAUDE_CODE_ATTRIBUTION_HEADER 并在 "env"

circle-info

中将其设置为 0。 使用 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 是无效的!

例如,执行 cat > ~/.claude/settings.json 然后添加以下内容(粘贴后按 ENTER 然后 CTRL+D 保存)。如果你已有之前的 ~/.claude/settings.json 文件,只需在 "env" 部分添加 "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" 并保持设置文件的其余部分不变。

🌟在 Linux / Mac / Windows 本地运行 Claude Code

circle-check
triangle-exclamation

导航到你的项目文件夹(mkdir project ; cd project)并运行:

要使用 Qwen3.5-35B-A3B,只需将其更改为:

要设置 Claude Code 在不经过任何审批的情况下执行命令,请执行 (注意:这将使 Claude Code 在没有任何审批的情况下按其方式执行并运行代码!)

试试这个提示以安装并运行一个简单的 Unsloth 微调:

稍等片刻后,Unsloth 将通过 uv 安装在 venv 中并加载:

最后你将看到使用 Unsloth 成功微调的模型!

IDE 扩展(VS Code / Cursor)

你也可以通过官方扩展在编辑器内直接使用 Claude Code:

或者,按下 Ctrl+Shift+X (Windows/Linux)或 Cmd+Shift+X (Mac),搜索 Claude Code,然后点击 安装.

circle-exclamation
triangle-exclamation

最后更新于

这有帮助吗?