Ollama 本地部署 DeepSeek / Qwen 大模型完全指南(2026,CPU/GPU 都能跑)
读完你能得到:在自己电脑上跑起一个本地大模型(DeepSeek-R1 蒸馏版 / Qwen2.5),命令行能聊天、也能用 OpenAI 兼容 API 接进你的代码——离线、免费、数据不出本机。全程基于 2026 年最新版实测,每步配命令,显存怎么选、报错怎么解都讲清楚。
为什么要本地跑大模型?三个真需求:数据敏感(公司代码/文档不想发给云端)、离线可用(断网也能写代码、查资料)、零调用费(跑多少都不花钱)。以前本地部署要装一堆 CUDA、编译半天,现在有了 Ollama,基本是"一行命令"的事。这篇带你从装到用、从 CPU 到 GPU 全跑通。
一、Ollama 是什么,为什么用它
一句话:Ollama 是一个把"下载模型 + 加载 + 推理 + API 服务"全包好的本地大模型运行器。你不用关心权重格式、量化、显存分配,它自动处理。核心三个能力:
- 一行命令拉模型并对话:
ollama run <模型名>。 - 自动用 GPU:检测到 NVIDIA / Apple 芯片会自动走 GPU 加速,没有就退回 CPU。
- 内置 OpenAI 兼容 API:启动后本地
11434端口,代码里改个base_url就能调。
二、前置环境
| 项 | 要求 |
|---|---|
| 操作系统 | Windows 10/11、macOS 12+、主流 Linux |
| 内存 | 8GB 起(7B 模型建议 16GB) |
| 显卡 | 非必须;有 NVIDIA(≥6G 显存)或 Apple 芯片则自动加速,明显更快 |
| 磁盘 | 每个 7B 模型约 4–5GB,预留 10GB+ |
显存/内存怎么选模型(关键,避免一上来就爆):
| 模型规模 | 量化版大小 | 建议显存/内存 | 适用 |
|---|---|---|---|
| 1.5B | ~1.1GB | 4G 显存 / 8G 内存 | 老机器、纯尝鲜 |
| 7B / 8B | ~4.7GB | 8G 显存 / 16G 内存 | 日常问答、写代码(推荐起步) |
| 14B | ~9GB | 12G 显存 | 质量更好、要好点的显卡 |
| 32B | ~20GB | 24G 显存 | 接近可用生产,需高端卡 |
三、最短可跑通路径(3 步)
- 打开 Ollama 官网
ollama.com,点 Download,下载对应系统安装包,双击安装(Linux 可用curl -fsSL https://ollama.com/install.sh | sh)。 - 打开终端,拉一个模型并直接对话:
ollama run deepseek-r1:7b
首次会自动下载(约 4.7GB,耐心等一次,之后秒启)。下完出现 >>> 提示符,直接打字就能聊:
>>> 用一句话解释什么是向量数据库
向量数据库是把文本/图片等转成向量后存储、并支持按相似度快速检索的数据库。
>>> /bye # 退出对话
- 想换模型就换名字,比如阿里的 Qwen:
ollama run qwen2.5:7b
能聊起来,本地大模型就跑通了。下面进入"确认走 GPU"和"接进代码"。
四、分步详解
4.1 确认是不是在用 GPU(很多人这一步没核对,白白用 CPU 跑得慢)
另开一个终端,先发起一次对话让模型加载,然后看占用:
ollama ps
输出里 PROCESSOR 一列:显示 100% GPU 说明在显卡上跑;显示 100% CPU 说明没吃到 GPU。
- NVIDIA 用户:确认装了较新驱动,
nvidia-smi能看到显卡;Ollama 会自动调用,无需手动配 CUDA。 - 显存不够时 Ollama 会自动把一部分层放 CPU(GPU/CPU 混合),表现为
60% GPU / 40% CPU,这是正常降级,换更小的量化模型即可全程 GPU。
经验:能上 GPU 就别用 CPU。同一个 7B 模型,GPU 出字像打字机连续输出,CPU 可能一秒蹦几个字。
4.2 用 OpenAI 兼容 API 接进你的代码(重点)
Ollama 启动后默认在 http://localhost:11434 提供服务,且兼容 OpenAI 协议——这意味着你现有的 OpenAI 代码,改 base_url 和模型名就能本地跑,不改逻辑。
先确保服务在跑(装好后通常已随后台启动;没有就执行 ollama serve)。然后:
# pip install openai
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1", # 指向本地 Ollama
api_key="ollama", # 本地无需真 key,占位即可
)
resp = client.chat.completions.create(
model="deepseek-r1:7b",
messages=[
{"role": "system", "content": "你是简洁的中文技术助手。"},
{"role": "user", "content": "写一个 Python 函数,判断字符串是否回文。"},
],
temperature=0.3,
)
print(resp.choices[0].message.content)
运行就能拿到本地模型的回答。把项目里指向云端的 base_url 换成这个,就实现了"同一套代码,本地/云端随意切"。
4.3 流式输出(让回答边生成边显示)
stream = client.chat.completions.create(
model="qwen2.5:7b",
messages=[{"role": "user", "content": "分三点说说本地大模型的优势"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content or ""
print(delta, end="", flush=True)
五、常见报错与解决(收藏级)
报错 1:Error: could not connect to ollama app
- 根因:Ollama 服务没启动。
- 解法:执行
ollama serve(或重启 Ollama 应用);Windows 检查任务栏托盘有没有 Ollama 图标。
报错 2:拉模型卡在某个百分比 / 下载超时
- 根因:网络波动导致大文件中断。
- 解法:直接重跑
ollama run <模型>,它会断点续传;多试一两次即可。
报错 3:跑起来极慢、风扇狂转(其实在用 CPU)
- 根因:没吃到 GPU,或模型超出显存被迫混合推理。
- 解法:
ollama ps看 PROCESSOR;换更小量化(如 7B → 1.5B,或选q4量化版)让它全进显存。
报错 4:out of memory / 显存爆了
- 根因:模型规模超过显存。
- 解法:换小一档模型(参考第二节选型表);关掉其他占显存的程序。
报错 5:API 调用 404 / 模型名不对
- 根因:
model写的名字本地没有这个 tag。 - 解法:
ollama list看本地已有模型的准确名字(含 tag,如deepseek-r1:7b),照抄填进model。
六、验证成功的标志
ollama run deepseek-r1:7b能进入>>>并正常多轮对话;ollama ps显示100% GPU(有显卡的话);- Python 用
localhost:11434/v1能拿到回答,且流式能逐字输出。
三条都满足,你就拥有了一个完全本地、可接进任意项目的大模型服务。
七、下一步
把本地模型接进实际场景:配合本地知识库做 RAG 问答(私有文档离线可问)、给它套个 Web 界面、或在 VS Code/Cursor 里把它设成自定义模型。这些进阶我放在同系列文章里写,关注大鹏AI教育,持续更新 AI 实战。
完整代码:本文的对话脚本与流式脚本已在上文完整给出,直接复制即可运行,无需额外下载;想要打包好的"本地大模型工程模板",我整理进了我的 AI 实战专栏,点我主页进专栏即可取用。
建议收藏:下次换电脑或重装环境配本地大模型,直接翻这篇照抄。卡在哪一步,把 ollama ps 输出和报错原文贴评论区,我帮你看。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)