本文主要说明如何使用llamacpp部署的huggingface gguf模型,以及如何使用ClaudeCode调用llamacpp的模型

机器环境

硬件信息
GPU: NVIDIA GeForce RTX 4090 (24GB)
CPU: Intel13th Gen Intel® Core™ i9-13900K (32 核)
内存: 64GB+(模型加载后占用约 20GB 内存)
存储: 50GB+ 可用空间(模型文件约 20~30GB)
软件信息
操作系统: Linux (Ubuntu 24.04+)
NVIDIA 驱动版本:590.48.01
CUDA Toolkit 13.0
Python 3.11.5

llamacpp安装

llama.cpp 包含 llama-server 它允许你高效地部署和服务 LLM。模型将在端口 8001 上提供服务,所有代理工具都通过单一与 OpenAI 兼容的端点路由。
我们需要安装 llama.cpp 以便部署/服务本地 LLM 在 Claude Code 等中使用。
我们遵循官方构建说明以获取正确的 GPU 绑定和最大性能。若要更改 -DGGML_CUDA=ON 为 -DGGML_CUDA=OFF 如果你没有 GPU 或仅想使用 CPU 推理。
对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 -Metal 支持默认开启。

sudo apt-get update
sudo apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

从huggingface 下载模型

pip install huggingface_hub hf_transfer
export HF_ENDPOINT=https://hf-mirror.com
# 创建本地目录Jackrong/Qwen3.5-27B
mkdir -p Jackrong/Qwen3.5-27B
# 下载模型 Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF
hf download Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF \
    --local-dir Jackrong/Qwen3.5-27B \
    --include "*mmproj*" \
    --include "Qwen3.5-27B.Q4_K_M.gguf" \
    --include "config.json" \
    --include "README.md"

启动 Llama-server 部署Qwen3.5模型

使用 llama-server为代理工作负载部署 Qwen3.5。
使用 Qwen 推荐的采样参数 用于“思考”模式: temp 0.6, top_p 0.95 , top-k 20
请记住,如果你使用非“思考”模式或其他任务,这些数值会改变。

下面的配置应该 完美适配 24GB GPU(RTX 4090)(使用 23GB) --fit on 也会自动卸载,但如果你看到性能不佳,请减少 --ctx-size .

使用 --cache-type-k q8_0 --cache-type-v q8_0 用于 KV 缓存量化以减少显存使用。
要使用全精度,请使用 --cache-type-k bf16 --cache-type-v bf16
根据多份报告,Qwen3.5 在使用 f16 KV 缓存时会降低精度,因此不要使用 --cache-type-k f16 --cache-type-v f16 该选项在 llama.cpp 中默认也是开启的。
注意 bf16 KV 缓存在某些机器上可能稍慢。

llama.cpp 中禁用思考,请在 llama-server 命令中添加:
--chat-template-kwargs "{\"enable_thinking\": false}"

./llama.cpp/llama-server \
    --model Jackrong/Qwen3.5-27B/Qwen3.5-27B.Q4_K_M.gguf \
    --alias "Jackrong/Qwen3.5-27B" \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001 \
    --kv-unified \
    --cache-type-k q8_0 --cache-type-v q8_0 \
    --flash-attn on --fit on \
    --ctx-size 131072 \
    --chat-template-kwargs "{\"enable_thinking\": false}"

Claude Code 教程

安装 Claude Code 并在本地运行它

curl -fsSL https://claude.ai/install.sh | bash
# 或通过 Homebrew: brew install --cask claude-code

配置

设置 ANTHROPIC_BASE_URL 环境变量以将 Claude Code 重定向到你的本地 llama.cpp 服务器。

export ANTHROPIC_BASE_URL="http://localhost:8001"

此外,根据服务器,你可能需要设置 ANTHROPIC_API_KEY 例如:

export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'

会话与持久化: 上述命令仅适用于当前终端。要在新终端中持久生效:

export 行添加到 ~/.bashrc (bash) 或 ~/.zshrc (zsh)。

如果你看到 Unable to connect to API (ConnectionRefused) ,记得通过取消设置 ANTHROPIC_BASE_URL 来处理 unset ANTHROPIC_BASE_URL

缺少 API 密钥

如果你看到此提示,请设置 export ANTHROPIC_API_KEY='sk-no-key-required' ## 或 'sk-1234'
如果 Claude Code 在首次运行时仍要求你登录,请添加 "hasCompletedOnboarding": true"primaryApiKey": "sk-dummy-key"~/.claude.json
对于 VS Code 扩展,还需在设置中启用 Disable Login Prompt (或添加 "claudeCode.disableLoginPrompt": true到 settings.json).

修复 Claude Code 中慢 90% 的推理问题

修复 Claude Code 中慢 90% 的推理问题

为了解决此问题,编辑 ~/.claude/settings.json 以包含 CLAUDE_CODE_ATTRIBUTION_HEADER 并在 "env"

中将其设置为 0。 使用 export CLAUDE_CODE_ATTRIBUTION_HEADER=0 是无效的!

例如,执行 cat > ~/.claude/settings.json 然后添加以下内容(粘贴后按 ENTER 然后 CTRL+D 保存)。如果你已有之前的 ~/.claude/settings.json 文件,只需在 “env” 部分添加 "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0" 并保持设置文件的其余部分不变。

{
  "promptSuggestionEnabled": false,
  "env": {
    "CLAUDE_CODE_ENABLE_TELEMETRY": "0",
    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
    "CLAUDE_CODE_ATTRIBUTION_HEADER" : "0"
  },
  "attribution": {
    "commit": "",
    "pr": ""
  },
  "plansDirectory" : "./plans",
  "prefersReducedMotion" : true,
  "terminalProgressBarEnabled" : false,
  "effortLevel" : "high"
}

运行 Claude Code

在 Linux / Mac / Windows 本地运行 Claude Code

我们使用了 Jackrong/Qwen3.5-27B ,导航到你的项目文件夹(mkdir project ; cd project)并运行:

claude --model Jackrong/Qwen3.5-27B

要设置 Claude Code 在不经过任何审批的情况下执行命令,请执行 (注意:这将使 Claude Code 在没有任何审批的情况下按其方式执行并运行代码!)

claude --model unsloth/GLM-4.7-Flash --dangerously-skip-permissions

参考链接:
如何使用 Claude Code 运行本地 LLM

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐