本地部署大模型避坑实录｜Ollama+AnythingLLM 一直加载、CPU 爆满、GPU 闲置问题完整解决

自小吃多

553人浏览 · 2026-05-08 21:21:28

自小吃多 · 2026-05-08 21:21:28 发布

本地部署大模型避坑实录｜Ollama+AnythingLLM 一直加载、CPU 爆满、GPU 闲置问题完整解决

前言

最近在本地搭建 Ollama + AnythingLLM 大模型运行环境，本以为流程很简单，结果接连遇到 界面无限加载、回复极慢、CPU 跑满 GPU 闲置 等问题。折腾许久才彻底解决，期间还踩了手动安装 CUDA 和驱动报错的坑。

一、问题现象描述

硬件环境

CPU：i7-8700K
内存：32GB
显卡：NVIDIA RTX 2060 6GB
软件：Ollama + AnythingLLM

初始异常表现

AnythingLLM 发送“你好”后一直加载，无任何回复
但直接在 Ollama 终端对话 可以正常回复
后续能回复后，速度极慢（几秒蹦一个字）
任务管理器中 CPU 占用拉满，GPU 纹丝不动

二、第一个坑：端口 11434 被占用

排查过程中，我手动执行服务启动命令：

ollama serve

直接报错：

Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.

问题原因
Ollama 安装后会自动在后台运行服务，再次手动执行 ollama serve 导致端口冲突。

解决方法

taskkill /f /im ollama.exe

关闭所有 Ollama 进程后，端口占用问题解决，AnythingLLM 可以正常收发消息。

三、第二个坑：回复巨慢，CPU 满载、GPU 闲置

端口问题解决后，虽然能回复，但速度极其缓慢。
打开任务管理器发现：

CPU 占用接近 100%
GPU 显存与利用率几乎为 0

明显是模型没有调用 GPU，完全在 CPU 上推理，导致性能严重不足。

四、排查尝试：环境变量与手动安装 CUDA 均无效

为了解决 GPU 不调用的问题，我尝试了网上常见的两种方法，但都失败了：

设置环境变量无效
配置了 OLLAMA_CUDA=1 等变量，重启后问题依旧。
手动安装 CUDA Toolkit 无效
我怀疑是系统缺少 CUDA 库，于是下载并安装了 cuda_13.2.0_windows_network。
结果：安装过程顺利，但重启后 Ollama 依然无法识别显卡，速度没有提升。

结论：Ollama 在 Windows 下通常自带所需的 CUDA 库，不需要用户手动安装 CUDA Toolkit。问题不在于缺库，而在于显卡驱动本身。

五、关键排查：nvidia-smi 报错与驱动真相

为了进一步确认显卡状态，我执行了命令：

nvidia-smi

意外发现：
终端报错 Failed to initialize NVML: Unknown Error。

原因分析：

虽然电脑之前一直在玩游戏，看似驱动正常，但安装的是 Game Ready 游戏驱动。
这种驱动对 AI 推理场景（CUDA 计算）的兼容性较差，甚至会导致 NVML 初始化失败，使得 Ollama 无法检测到显卡。
之前手动安装 CUDA Toolkit 无效，正是因为底层驱动（Driver）本身就不支持或存在冲突。

六、最终解决方案：更换 NVIDIA Studio 驱动

既然 Game Ready 驱动不行，必须更换为面向创作和计算的 NVIDIA Studio 驱动。

操作步骤：

前往 NVIDIA 官网驱动下载页面。
产品类型选择 Studio 驱动（而非 Game Ready）。
安装时选择 自定义安装 + 勾选“执行清洁安装”（这一步很重要，能清除旧驱动残留）。
安装完成后重启电脑。

七、最终成功：GPU 正常加速

重启后再次验证：

检查驱动状态：执行 nvidia-smi，不再报错，成功显示显卡信息。
检查 Ollama 日志：执行 ollama serve，日志中出现：
```
inference compute: CUDA
name: NVIDIA GeForce RTX 2060
total_vram: 6.0 GiB
```
表示 GPU 已被正常识别并启用 CUDA 加速。
实测效果：
- AnythingLLM 发送消息秒回。
- CPU 占用率恢复正常（个位数）。
- GPU 利用率跑满，显存被占用。

八、总结（干货速查）

AnythingLLM 一直加载
→ 端口 11434 被占用，执行 taskkill /f /im ollama.exe 即可。
模型回复慢、CPU 跑满、GPU 闲置
→ Ollama 未识别显卡，强制使用 CPU 推理。
手动安装 CUDA Toolkit 无效
→ Ollama 自带 CUDA 库，不需要手动装。根本原因通常是显卡驱动不匹配。
nvidia-smi 报错或 Ollama 不识别显卡
→ 即使玩游戏正常，也请将 Game Ready 驱动 更换为 NVIDIA Studio 驱动，并进行清洁安装。
判断是否成功启用 GPU
→ 运行 ollama serve，日志出现 CUDA + 显卡型号即成功。

希望这个版本能帮到更多遇到同样问题的人！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

TCP 三次握手与四次挥手

本文深入解析了TCP协议中的三次握手与四次挥手机制，从报文结构、状态机转换到实战抓包分析。三次握手通过SYN、SYN-ACK、ACK报文建立双向连接，确保双方收发能力正常；四次挥手通过FIN、ACK报文独立关闭双向通道。文章还探讨了关键问题：为什么需要三次握手而非两次/四次、随机初始序列号的作用、SYN Flood攻击与防御、CLOSE_WAIT泄漏以及TIME_WAIT状态持续2MSL的原因。通

AtomGit开源社区

Agent Skills 完全指南：AI 编程助手的标准化“能力包”

本文介绍了AI编程助手（如Claude Code）中的Agent Skills机制，这是一种标准化、可复用的"能力包"系统。Skills不同于一次性指令，而是将复杂工作流程（如代码审查、自动部署）封装为可共享的操作手册。文章对比了Skills与Commands、Agents、Hooks的区别，详细解析了Skill的文件结构（SKILL.md为核心）和工作流程，并提供了Spring Boot自动部署