ClaudeCode使用llamacpp部署的huggingface gguf模型
本文主要说明如何使用llamacpp部署的huggingface gguf模型,以及如何使用ClaudeCode调用llamacpp的模型
机器环境
硬件信息
GPU: NVIDIA GeForce RTX 4090 (24GB)
CPU: Intel13th Gen Intel® Core™ i9-13900K (32 核)
内存: 64GB+(模型加载后占用约 20GB 内存)
存储: 50GB+ 可用空间(模型文件约 20~30GB)
软件信息
操作系统: Linux (Ubuntu 24.04+)
NVIDIA 驱动版本:590.48.01
CUDA Toolkit 13.0
Python 3.11.5
llamacpp安装
llama.cpp 包含 llama-server 它允许你高效地部署和服务 LLM。模型将在端口 8001 上提供服务,所有代理工具都通过单一与 OpenAI 兼容的端点路由。
我们需要安装 llama.cpp 以便部署/服务本地 LLM 在 Claude Code 等中使用。
我们遵循官方构建说明以获取正确的 GPU 绑定和最大性能。若要更改 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。
对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 -Metal 支持默认开启。
sudo apt-get update
sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
从huggingface 下载模型
pip install huggingface_hub hf_transfer
export HF_ENDPOINT=https://hf-mirror.com
# 创建本地目录Jackrong/Qwen3.5-27B
mkdir -p Jackrong/Qwen3.5-27B
# 下载模型 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF
hf download Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF \
--local-dir Jackrong/Qwen3.5-27B \
--include "*mmproj*" \
--include "Qwen3.5-27B.Q4_K_M.gguf" \
--include "config.json" \
--include "README.md"
启动 Llama-server 部署Qwen3.5模型
使用 llama-server为代理工作负载部署 Qwen3.5。
使用 Qwen 推荐的采样参数 用于“思考”模式: temp 0.6, top_p 0.95 , top-k 20。
请记住,如果你使用非“思考”模式或其他任务,这些数值会改变。
下面的配置应该 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果你看到性能不佳,请减少 --ctx-size .
使用 --cache-type-k q8_0 --cache-type-v q8_0 用于 KV 缓存量化以减少显存使用。
要使用全精度,请使用 --cache-type-k bf16 --cache-type-v bf16
根据多份报告,Qwen3.5 在使用 f16 KV 缓存时会降低精度,因此不要使用 --cache-type-k f16 --cache-type-v f16 该选项在 llama.cpp 中默认也是开启的。
注意 bf16 KV 缓存在某些机器上可能稍慢。
llama.cpp 中禁用思考,请在 llama-server 命令中添加:--chat-template-kwargs "{\"enable_thinking\": false}"
./llama.cpp/llama-server \
--model Jackrong/Qwen3.5-27B/Qwen3.5-27B.Q4_K_M.gguf \
--alias "Jackrong/Qwen3.5-27B" \
--temp 0.6 \
--top-p 0.95 \
--top-k 20 \
--min-p 0.00 \
--port 8001 \
--kv-unified \
--cache-type-k q8_0 --cache-type-v q8_0 \
--flash-attn on --fit on \
--ctx-size 131072 \
--chat-template-kwargs "{\"enable_thinking\": false}"
Claude Code 教程
安装 Claude Code 并在本地运行它
curl -fsSL https://claude.ai/install.sh | bash
# 或通过 Homebrew: brew install --cask claude-code
配置
设置 ANTHROPIC_BASE_URL 环境变量以将 Claude Code 重定向到你的本地 llama.cpp 服务器。
export ANTHROPIC_BASE_URL="http://localhost:8001"
此外,根据服务器,你可能需要设置 ANTHROPIC_API_KEY 例如:
export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'
会话与持久化: 上述命令仅适用于当前终端。要在新终端中持久生效:
将 export 行添加到 ~/.bashrc (bash) 或 ~/.zshrc (zsh)。
如果你看到 Unable to connect to API (ConnectionRefused) ,记得通过取消设置 ANTHROPIC_BASE_URL 来处理 unset ANTHROPIC_BASE_URL
缺少 API 密钥
如果你看到此提示,请设置 export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'
如果 Claude Code 在首次运行时仍要求你登录,请添加 "hasCompletedOnboarding": true 和 "primaryApiKey": "sk-dummy-key" 为 ~/.claude.json。
对于 VS Code 扩展,还需在设置中启用 Disable Login Prompt (或添加 "claudeCode.disableLoginPrompt": true 为 到 settings.json).
修复 Claude Code 中慢 90% 的推理问题
修复 Claude Code 中慢 90% 的推理问题
为了解决此问题,编辑 ~/.claude/settings.json 以包含 CLAUDE_CODE_ATTRIBUTION_HEADER 并在 "env"
中将其设置为 0。 使用 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 是无效的!
例如,执行 cat > ~/.claude/settings.json 然后添加以下内容(粘贴后按 ENTER 然后 CTRL+D 保存)。如果你已有之前的 ~/.claude/settings.json 文件,只需在 “env” 部分添加 "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" 并保持设置文件的其余部分不变。
{
"promptSuggestionEnabled": false,
"env": {
"CLAUDE_CODE_ENABLE_TELEMETRY": "0",
"CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
"CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
},
"attribution": {
"commit": "",
"pr": ""
},
"plansDirectory" : "./plans",
"prefersReducedMotion" : true,
"terminalProgressBarEnabled" : false,
"effortLevel" : "high"
}
运行 Claude Code
在 Linux / Mac / Windows 本地运行 Claude Code
我们使用了 Jackrong/Qwen3.5-27B ,导航到你的项目文件夹(mkdir project ; cd project)并运行:
claude --model Jackrong/Qwen3.5-27B
要设置 Claude Code 在不经过任何审批的情况下执行命令,请执行 (注意:这将使 Claude Code 在没有任何审批的情况下按其方式执行并运行代码!)
claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)