前言

最近在本地搭建 Ollama + AnythingLLM 大模型运行环境,本以为流程很简单,结果接连遇到 界面无限加载、回复极慢、CPU 跑满 GPU 闲置 等问题。折腾许久才彻底解决,期间还踩了手动安装 CUDA 和驱动报错的坑。

一、问题现象描述

硬件环境

  • CPU:i7-8700K
  • 内存:32GB
  • 显卡:NVIDIA RTX 2060 6GB
  • 软件:Ollama + AnythingLLM

初始异常表现

  1. AnythingLLM 发送“你好”后一直加载,无任何回复
  2. 但直接在 Ollama 终端对话 可以正常回复
  3. 后续能回复后,速度极慢(几秒蹦一个字)
  4. 任务管理器中 CPU 占用拉满,GPU 纹丝不动
二、第一个坑:端口 11434 被占用

排查过程中,我手动执行服务启动命令:

ollama serve

直接报错:

Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.

问题原因
Ollama 安装后会自动在后台运行服务,再次手动执行 ollama serve 导致端口冲突。

解决方法

taskkill /f /im ollama.exe

关闭所有 Ollama 进程后,端口占用问题解决,AnythingLLM 可以正常收发消息。

三、第二个坑:回复巨慢,CPU 满载、GPU 闲置

端口问题解决后,虽然能回复,但速度极其缓慢。
打开任务管理器发现:

  • CPU 占用接近 100%
  • GPU 显存与利用率几乎为 0

明显是模型没有调用 GPU,完全在 CPU 上推理,导致性能严重不足。

四、排查尝试:环境变量与手动安装 CUDA 均无效

为了解决 GPU 不调用的问题,我尝试了网上常见的两种方法,但都失败了:

  1. 设置环境变量无效
    配置了 OLLAMA_CUDA=1 等变量,重启后问题依旧。

  2. 手动安装 CUDA Toolkit 无效
    我怀疑是系统缺少 CUDA 库,于是下载并安装了 cuda_13.2.0_windows_network
    结果:安装过程顺利,但重启后 Ollama 依然无法识别显卡,速度没有提升。

结论:Ollama 在 Windows 下通常自带所需的 CUDA 库,不需要用户手动安装 CUDA Toolkit。问题不在于缺库,而在于显卡驱动本身

五、关键排查:nvidia-smi 报错与驱动真相

为了进一步确认显卡状态,我执行了命令:

nvidia-smi

意外发现
终端报错 Failed to initialize NVML: Unknown Error

原因分析

  • 虽然电脑之前一直在玩游戏,看似驱动正常,但安装的是 Game Ready 游戏驱动
  • 这种驱动对 AI 推理场景(CUDA 计算)的兼容性较差,甚至会导致 NVML 初始化失败,使得 Ollama 无法检测到显卡。
  • 之前手动安装 CUDA Toolkit 无效,正是因为底层驱动(Driver)本身就不支持或存在冲突。
六、最终解决方案:更换 NVIDIA Studio 驱动

既然 Game Ready 驱动不行,必须更换为面向创作和计算的 NVIDIA Studio 驱动

操作步骤

  1. 前往 NVIDIA 官网驱动下载页面。
  2. 产品类型选择 Studio 驱动(而非 Game Ready)。
  3. 安装时选择 自定义安装 + 勾选“执行清洁安装”(这一步很重要,能清除旧驱动残留)。
  4. 安装完成后重启电脑。
七、最终成功:GPU 正常加速

重启后再次验证:

  1. 检查驱动状态:执行 nvidia-smi,不再报错,成功显示显卡信息。
    在这里插入图片描述

  2. 检查 Ollama 日志:执行 ollama serve,日志中出现:

    inference compute: CUDA
    name: NVIDIA GeForce RTX 2060
    total_vram: 6.0 GiB
    

    表示 GPU 已被正常识别并启用 CUDA 加速

  3. 实测效果

    • AnythingLLM 发送消息秒回
    • CPU 占用率恢复正常(个位数)。
    • GPU 利用率跑满,显存被占用。
八、总结(干货速查)
  1. AnythingLLM 一直加载
    → 端口 11434 被占用,执行 taskkill /f /im ollama.exe 即可。

  2. 模型回复慢、CPU 跑满、GPU 闲置
    → Ollama 未识别显卡,强制使用 CPU 推理。

  3. 手动安装 CUDA Toolkit 无效
    → Ollama 自带 CUDA 库,不需要手动装。根本原因通常是显卡驱动不匹配

  4. nvidia-smi 报错或 Ollama 不识别显卡
    → 即使玩游戏正常,也请将 Game Ready 驱动 更换为 NVIDIA Studio 驱动,并进行清洁安装。

  5. 判断是否成功启用 GPU
    → 运行 ollama serve,日志出现 CUDA + 显卡型号即成功。


希望这个版本能帮到更多遇到同样问题的人!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐