Ollama 本地部署 DeepSeek / Qwen 大模型完全指南（2026，CPU/GPU 都能跑）

张大鹏520

417人浏览 · 2026-06-07 19:59:00

张大鹏520 · 2026-06-07 19:59:00 发布

读完你能得到：在自己电脑上跑起一个本地大模型（DeepSeek-R1 蒸馏版 / Qwen2.5），命令行能聊天、也能用 OpenAI 兼容 API 接进你的代码——离线、免费、数据不出本机。全程基于 2026 年最新版实测，每步配命令，显存怎么选、报错怎么解都讲清楚。

为什么要本地跑大模型？三个真需求：数据敏感（公司代码/文档不想发给云端）、离线可用（断网也能写代码、查资料）、零调用费（跑多少都不花钱）。以前本地部署要装一堆 CUDA、编译半天，现在有了 Ollama，基本是"一行命令"的事。这篇带你从装到用、从 CPU 到 GPU 全跑通。

一、Ollama 是什么，为什么用它

一句话：Ollama 是一个把"下载模型 + 加载 + 推理 + API 服务"全包好的本地大模型运行器。你不用关心权重格式、量化、显存分配，它自动处理。核心三个能力：

一行命令拉模型并对话：ollama run <模型名>。
自动用 GPU：检测到 NVIDIA / Apple 芯片会自动走 GPU 加速，没有就退回 CPU。
内置 OpenAI 兼容 API：启动后本地 11434 端口，代码里改个 base_url 就能调。

二、前置环境

项	要求
操作系统	Windows 10/11、macOS 12+、主流 Linux
内存	8GB 起（7B 模型建议 16GB）
显卡	非必须；有 NVIDIA（≥6G 显存）或 Apple 芯片则自动加速，明显更快
磁盘	每个 7B 模型约 4–5GB，预留 10GB+

显存/内存怎么选模型（关键，避免一上来就爆）：

模型规模	量化版大小	建议显存/内存	适用
1.5B	~1.1GB	4G 显存 / 8G 内存	老机器、纯尝鲜
7B / 8B	~4.7GB	8G 显存 / 16G 内存	日常问答、写代码（推荐起步）
14B	~9GB	12G 显存	质量更好、要好点的显卡
32B	~20GB	24G 显存	接近可用生产，需高端卡

三、最短可跑通路径（3 步）

打开 Ollama 官网 ollama.com，点 Download，下载对应系统安装包，双击安装（Linux 可用 curl -fsSL https://ollama.com/install.sh | sh）。
打开终端，拉一个模型并直接对话：

ollama run deepseek-r1:7b

首次会自动下载（约 4.7GB，耐心等一次，之后秒启）。下完出现 >>> 提示符，直接打字就能聊：

>>> 用一句话解释什么是向量数据库
向量数据库是把文本/图片等转成向量后存储、并支持按相似度快速检索的数据库。
>>> /bye        # 退出对话

想换模型就换名字，比如阿里的 Qwen：

ollama run qwen2.5:7b

能聊起来，本地大模型就跑通了。下面进入"确认走 GPU"和"接进代码"。

四、分步详解

4.1 确认是不是在用 GPU（很多人这一步没核对，白白用 CPU 跑得慢）

另开一个终端，先发起一次对话让模型加载，然后看占用：

ollama ps

输出里 PROCESSOR 一列：显示 100% GPU 说明在显卡上跑；显示 100% CPU 说明没吃到 GPU。

NVIDIA 用户：确认装了较新驱动，nvidia-smi 能看到显卡；Ollama 会自动调用，无需手动配 CUDA。
显存不够时 Ollama 会自动把一部分层放 CPU（GPU/CPU 混合），表现为 60% GPU / 40% CPU，这是正常降级，换更小的量化模型即可全程 GPU。

经验：能上 GPU 就别用 CPU。同一个 7B 模型，GPU 出字像打字机连续输出，CPU 可能一秒蹦几个字。

4.2 用 OpenAI 兼容 API 接进你的代码（重点）

Ollama 启动后默认在 http://localhost:11434 提供服务，且兼容 OpenAI 协议——这意味着你现有的 OpenAI 代码，改 base_url 和模型名就能本地跑，不改逻辑。

先确保服务在跑（装好后通常已随后台启动；没有就执行 ollama serve）。然后：

# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",   # 指向本地 Ollama
    api_key="ollama",                       # 本地无需真 key，占位即可
)

resp = client.chat.completions.create(
    model="deepseek-r1:7b",
    messages=[
        {"role": "system", "content": "你是简洁的中文技术助手。"},
        {"role": "user", "content": "写一个 Python 函数，判断字符串是否回文。"},
    ],
    temperature=0.3,
)
print(resp.choices[0].message.content)

运行就能拿到本地模型的回答。把项目里指向云端的 base_url 换成这个，就实现了"同一套代码，本地/云端随意切"。

4.3 流式输出（让回答边生成边显示）

stream = client.chat.completions.create(
    model="qwen2.5:7b",
    messages=[{"role": "user", "content": "分三点说说本地大模型的优势"}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)