ClaudeCode使用llamacpp部署的huggingface gguf模型

haimin0371

1324人浏览 · 2026-03-22 15:55:38

haimin0371 · 2026-03-22 15:55:38 发布

本文主要说明如何使用llamacpp部署的huggingface gguf模型，以及如何使用ClaudeCode调用llamacpp的模型

机器环境

硬件信息
GPU: NVIDIA GeForce RTX 4090 (24GB)
CPU: Intel13th Gen Intel® Core™ i9-13900K (32 核)
内存: 64GB+（模型加载后占用约 20GB 内存）
存储: 50GB+ 可用空间（模型文件约 20~30GB）
软件信息
操作系统: Linux (Ubuntu 24.04+)
NVIDIA 驱动版本：590.48.01
CUDA Toolkit 13.0
Python 3.11.5

llamacpp安装

llama.cpp 包含 llama-server 它允许你高效地部署和服务 LLM。模型将在端口 8001 上提供服务，所有代理工具都通过单一与 OpenAI 兼容的端点路由。
我们需要安装 llama.cpp 以便部署/服务本地 LLM 在 Claude Code 等中使用。
我们遵循官方构建说明以获取正确的 GPU 绑定和最大性能。若要更改 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。
对于 Apple Mac / Metal 设备，设置 -DGGML_CUDA=OFF 然后照常继续 -Metal 支持默认开启。

sudo apt-get update
sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

从huggingface 下载模型

pip install huggingface_hub hf_transfer
export HF_ENDPOINT=https://hf-mirror.com
# 创建本地目录Jackrong/Qwen3.5-27B
mkdir -p Jackrong/Qwen3.5-27B
# 下载模型 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF
hf download Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF \
    --local-dir Jackrong/Qwen3.5-27B \
    --include "*mmproj*" \
    --include "Qwen3.5-27B.Q4_K_M.gguf" \
    --include "config.json" \
    --include "README.md"

启动 Llama-server 部署Qwen3.5模型

使用 llama-server为代理工作负载部署 Qwen3.5。
使用 Qwen 推荐的采样参数用于“思考”模式： temp 0.6, top_p 0.95 , top-k 20。
请记住，如果你使用非“思考”模式或其他任务，这些数值会改变。

下面的配置应该 完美适配 24GB GPU（RTX 4090）（使用 23GB） --fit on 也会自动卸载，但如果你看到性能不佳，请减少 --ctx-size .

使用 --cache-type-k q8_0 --cache-type-v q8_0 用于 KV 缓存量化以减少显存使用。
要使用全精度，请使用 --cache-type-k bf16 --cache-type-v bf16
根据多份报告，Qwen3.5 在使用 f16 KV 缓存时会降低精度，因此不要使用 --cache-type-k f16 --cache-type-v f16 该选项在 llama.cpp 中默认也是开启的。
注意 bf16 KV 缓存在某些机器上可能稍慢。

llama.cpp 中禁用思考，请在 llama-server 命令中添加：
--chat-template-kwargs "{\"enable_thinking\": false}"

./llama.cpp/llama-server \
    --model Jackrong/Qwen3.5-27B/Qwen3.5-27B.Q4_K_M.gguf \
    --alias "Jackrong/Qwen3.5-27B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 \
    --chat-template-kwargs "{\"enable_thinking\": false}"

Claude Code 教程

安装 Claude Code 并在本地运行它

curl -fsSL https://claude.ai/install.sh | bash
# 或通过 Homebrew： brew install --cask claude-code

配置

设置 ANTHROPIC_BASE_URL 环境变量以将 Claude Code 重定向到你的本地 llama.cpp 服务器。

export ANTHROPIC_BASE_URL="http://localhost:8001"

此外，根据服务器，你可能需要设置 ANTHROPIC_API_KEY 例如：

export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

会话与持久化： 上述命令仅适用于当前终端。要在新终端中持久生效：

将 export 行添加到 ~/.bashrc (bash) 或 ~/.zshrc (zsh)。

如果你看到 Unable to connect to API (ConnectionRefused) ，记得通过取消设置 ANTHROPIC_BASE_URL 来处理 unset ANTHROPIC_BASE_URL

缺少 API 密钥

如果你看到此提示，请设置 export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'
如果 Claude Code 在首次运行时仍要求你登录，请添加 "hasCompletedOnboarding": true 和 "primaryApiKey": "sk-dummy-key" 为 ~/.claude.json。
对于 VS Code 扩展，还需在设置中启用 Disable Login Prompt （或添加 "claudeCode.disableLoginPrompt": true 为 到 settings.json).

修复 Claude Code 中慢 90% 的推理问题

为了解决此问题，编辑 ~/.claude/settings.json 以包含 CLAUDE_CODE_ATTRIBUTION_HEADER 并在 "env"

中将其设置为 0。 使用 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 是无效的！

例如，执行 cat > ~/.claude/settings.json 然后添加以下内容（粘贴后按 ENTER 然后 CTRL+D 保存）。如果你已有之前的 ~/.claude/settings.json 文件，只需在 “env” 部分添加 "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" 并保持设置文件的其余部分不变。

{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}

运行 Claude Code

在 Linux / Mac / Windows 本地运行 Claude Code

我们使用了 Jackrong/Qwen3.5-27B ，导航到你的项目文件夹（mkdir project ; cd project）并运行：

claude --model Jackrong/Qwen3.5-27B

要设置 Claude Code 在不经过任何审批的情况下执行命令，请执行 （注意：这将使 Claude Code 在没有任何审批的情况下按其方式执行并运行代码！）

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

参考链接：
如何使用 Claude Code 运行本地 LLM

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

如何下载Claude并接入GLM

本文详细介绍了Claude的安装配置及接入GLM5.0模型的全过程。首先需检查Node.js和Git环境，建议使用淘宝镜像加速npm安装。通过npm安装Claude后，需在智谱AI平台获取API Key。重点讲解了claude-code-router的配置方法，包括创建config.json和settings.json配置文件，并设置GLM-5.1模型参数。最后指导用户测试运行，若出现400错误需

AtomGit开源社区

BP神经网络对水质问题进行预测（Matlab代码实现）

本文探讨了BP神经网络在水质预测中的应用，通过构建BP神经网络模型，利用历史水质监测数据对未来水质参数进行预测。研究表明，BP神经网络在水质预测中表现出较高的准确性和可靠性，能够为水资源保护和管理提供科学依据。

AtomGit开源社区

考虑分布式电源不确定性的配电网鲁棒动态重构模型与求解方法（Matlab代码实现）

在双碳战略与新型电力系统建设背景下，以光伏、风电为代表的分布式电源在配电网中得到大规模接入，使得传统配电网由单向无源辐射网络，逐步转变为多电源供电、潮流双向流动的有源配电网。分布式电源出力具有明显的间歇性、随机性与波动性，传统确定性配电网重构方法难以适应强不确定性运行场景，容易出现重构方案失效、线路潮流越限、系统网损上升、供电可靠性降低等问题。为提升配电网在源荷双重不确定条件下的安全稳定与经济运行