读完你能得到:在自己电脑上跑起一个本地大模型(DeepSeek-R1 蒸馏版 / Qwen2.5),命令行能聊天、也能用 OpenAI 兼容 API 接进你的代码——离线、免费、数据不出本机。全程基于 2026 年最新版实测,每步配命令,显存怎么选、报错怎么解都讲清楚。

为什么要本地跑大模型?三个真需求:数据敏感(公司代码/文档不想发给云端)、离线可用(断网也能写代码、查资料)、零调用费(跑多少都不花钱)。以前本地部署要装一堆 CUDA、编译半天,现在有了 Ollama,基本是"一行命令"的事。这篇带你从装到用、从 CPU 到 GPU 全跑通。

一、Ollama 是什么,为什么用它

一句话:Ollama 是一个把"下载模型 + 加载 + 推理 + API 服务"全包好的本地大模型运行器。你不用关心权重格式、量化、显存分配,它自动处理。核心三个能力:

  • 一行命令拉模型并对话ollama run <模型名>
  • 自动用 GPU:检测到 NVIDIA / Apple 芯片会自动走 GPU 加速,没有就退回 CPU。
  • 内置 OpenAI 兼容 API:启动后本地 11434 端口,代码里改个 base_url 就能调。

二、前置环境

要求
操作系统 Windows 10/11、macOS 12+、主流 Linux
内存 8GB 起(7B 模型建议 16GB)
显卡 非必须;有 NVIDIA(≥6G 显存)或 Apple 芯片则自动加速,明显更快
磁盘 每个 7B 模型约 4–5GB,预留 10GB+

显存/内存怎么选模型(关键,避免一上来就爆):

模型规模 量化版大小 建议显存/内存 适用
1.5B ~1.1GB 4G 显存 / 8G 内存 老机器、纯尝鲜
7B / 8B ~4.7GB 8G 显存 / 16G 内存 日常问答、写代码(推荐起步)
14B ~9GB 12G 显存 质量更好、要好点的显卡
32B ~20GB 24G 显存 接近可用生产,需高端卡

三、最短可跑通路径(3 步)

  1. 打开 Ollama 官网 ollama.com,点 Download,下载对应系统安装包,双击安装(Linux 可用 curl -fsSL https://ollama.com/install.sh | sh)。
  2. 打开终端,拉一个模型并直接对话:
ollama run deepseek-r1:7b

首次会自动下载(约 4.7GB,耐心等一次,之后秒启)。下完出现 >>> 提示符,直接打字就能聊:

>>> 用一句话解释什么是向量数据库
向量数据库是把文本/图片等转成向量后存储、并支持按相似度快速检索的数据库。
>>> /bye        # 退出对话
  1. 想换模型就换名字,比如阿里的 Qwen:
ollama run qwen2.5:7b

能聊起来,本地大模型就跑通了。下面进入"确认走 GPU"和"接进代码"。

四、分步详解

4.1 确认是不是在用 GPU(很多人这一步没核对,白白用 CPU 跑得慢)

另开一个终端,先发起一次对话让模型加载,然后看占用:

ollama ps

输出里 PROCESSOR 一列:显示 100% GPU 说明在显卡上跑;显示 100% CPU 说明没吃到 GPU。

  • NVIDIA 用户:确认装了较新驱动,nvidia-smi 能看到显卡;Ollama 会自动调用,无需手动配 CUDA。
  • 显存不够时 Ollama 会自动把一部分层放 CPU(GPU/CPU 混合),表现为 60% GPU / 40% CPU,这是正常降级,换更小的量化模型即可全程 GPU。

经验:能上 GPU 就别用 CPU。同一个 7B 模型,GPU 出字像打字机连续输出,CPU 可能一秒蹦几个字。

4.2 用 OpenAI 兼容 API 接进你的代码(重点)

Ollama 启动后默认在 http://localhost:11434 提供服务,且兼容 OpenAI 协议——这意味着你现有的 OpenAI 代码,改 base_url 和模型名就能本地跑,不改逻辑。

先确保服务在跑(装好后通常已随后台启动;没有就执行 ollama serve)。然后:

# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",   # 指向本地 Ollama
    api_key="ollama",                       # 本地无需真 key,占位即可
)

resp = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "system", "content": "你是简洁的中文技术助手。"},
        {"role": "user", "content": "写一个 Python 函数,判断字符串是否回文。"},
    ],
    temperature=0.3,
)
print(resp.choices[0].message.content)

运行就能拿到本地模型的回答。把项目里指向云端的 base_url 换成这个,就实现了"同一套代码,本地/云端随意切"。

4.3 流式输出(让回答边生成边显示)

stream = client.chat.completions.create(
    model="qwen2.5:7b",
    messages=[{"role": "user", "content": "分三点说说本地大模型的优势"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)

五、常见报错与解决(收藏级)

报错 1:Error: could not connect to ollama app

  • 根因:Ollama 服务没启动。
  • 解法:执行 ollama serve(或重启 Ollama 应用);Windows 检查任务栏托盘有没有 Ollama 图标。

报错 2:拉模型卡在某个百分比 / 下载超时

  • 根因:网络波动导致大文件中断。
  • 解法:直接重跑 ollama run <模型>,它会断点续传;多试一两次即可。

报错 3:跑起来极慢、风扇狂转(其实在用 CPU)

  • 根因:没吃到 GPU,或模型超出显存被迫混合推理。
  • 解法:ollama ps 看 PROCESSOR;换更小量化(如 7B → 1.5B,或选 q4 量化版)让它全进显存。

报错 4:out of memory / 显存爆了

  • 根因:模型规模超过显存。
  • 解法:换小一档模型(参考第二节选型表);关掉其他占显存的程序。

报错 5:API 调用 404 / 模型名不对

  • 根因:model 写的名字本地没有这个 tag。
  • 解法:ollama list 看本地已有模型的准确名字(含 tag,如 deepseek-r1:7b),照抄填进 model

六、验证成功的标志

  • ollama run deepseek-r1:7b 能进入 >>> 并正常多轮对话;
  • ollama ps 显示 100% GPU(有显卡的话);
  • Python 用 localhost:11434/v1 能拿到回答,且流式能逐字输出。

三条都满足,你就拥有了一个完全本地、可接进任意项目的大模型服务。

七、下一步

把本地模型接进实际场景:配合本地知识库做 RAG 问答(私有文档离线可问)、给它套个 Web 界面、或在 VS Code/Cursor 里把它设成自定义模型。这些进阶我放在同系列文章里写,关注大鹏AI教育,持续更新 AI 实战。

完整代码:本文的对话脚本与流式脚本已在上文完整给出,直接复制即可运行,无需额外下载;想要打包好的"本地大模型工程模板",我整理进了我的 AI 实战专栏,点我主页进专栏即可取用。

建议收藏:下次换电脑或重装环境配本地大模型,直接翻这篇照抄。卡在哪一步,把 ollama ps 输出和报错原文贴评论区,我帮你看。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐