Ollama：本地大模型部署神器，5 分钟跑起你的私人 AI

瓦罗兰特顶级C位

671人浏览 · 2026-03-28 10:25:13

瓦罗兰特顶级C位 · 2026-03-28 10:25:13 发布

如果你不希望将数据上传到云端，担心隐私安全问题，或者害怕哪天突然收到一张失控的“天价” API 账单，那么在本地部署大模型或许是更安心的选择。而在众多方案之中，Ollama 很可能正是你正在寻找的那把钥匙。

必备基础

AI 时代为什么显卡如此重要？

AI 时代拼的是算力，而提供算力的主力是图形处理单元（GPU），而非中央处理单元（CPU）。这让很多刚接触大语言模型（LLM）的朋友感到疑惑：不是 CPU 更强大吗，怎么显卡反倒成了主角？

核心原因是计算类型的匹配，AI 推理本质上是超大规模的矩阵乘法。一个 7B 参数的模型，每生成一个字，就要完成数十亿次乘加运算。CPU 和 GPU 面对这类任务的方式截然不同：

CPU 是全能选手，每个核心都很强大，能处理复杂逻辑、条件判断、操作系统调度……但核心数少（4~32 个），遇到矩阵乘法只能一个一个排队算，就像一位数学家用纸笔逐题计算。
GPU 是流水线工厂，每个核心很简单，只会做基本的乘加运算，但核心数量庞大（消费级 3080 有 8704 个，A100 有 6912 个）。矩阵的每个元素可以分配给一个核心同时计算，整个矩阵一轮就算完，效率天壤之别。
还有一个关键因素是显存带宽。AI 模型的参数需要不断从内存读入计算单元，GPU 的显存带宽（如 A100 达 2TB/s）远高于 CPU 内存带宽（通常 50~100GB/s），数据喂得快，算力才不会被饿死。

所以跑 AI 用 GPU，不是因为 GPU更快，而是因为 GPU 的架构天然就是为大量简单重复运算设计的，和神经网络的计算模式完美匹配。

大语言模型有哪些类型？

大语言模型按不同维度分很多种，最常用的是按参数规模、用途、开源/闭源来进行分类。

还有一种按处理方式进行的分类方法：

满血（Full precision）就是模型最原始的状态，参数用 FP32 或 BF16 浮点数存储，一个字都没省。DeepSeek-R1 671B 满血版需要约 1.3TB 显存，只有顶级数据中心才能跑。优点是效果最好，缺点是贵、重、没人能在家里跑。
蒸馏（Distillation）本质上是让小模型模仿大模型。用一个 671B 的大模型（教师）生成大量高质量输出，再拿这些输出去训练一个 7B 的小模型（学生）。小模型参数量少，但因为学的是大模型的思维方式，能力往往远超同等规模的普通训练模型。DeepSeek-R1-Distill-Qwen-7B 就是这么来的——7B 的体积，却带着 R1 的推理能力。蒸馏改变的是模型结构和参数数量，是在训练阶段就完成的。
量化（Quantization）则是在不改变模型结构的前提下，把参数的精度降档压缩。原来每个参数用 32 位浮点数（FP32）存，量化到 4 位整数（INT4）之后，体积直接缩小为原来的八分之一。同一个 7B 模型，满血版约需 14GB 显存，Q4 量化版只需 4~5GB，普通消费级显卡甚至 CPU 都能跑。量化是部署阶段的操作，能力损失通常很小，Q8 几乎无损，Q4 略有下降但日常用途基本感知不到。Ollama 里我们拉取的模型默认就是量化版（GGUF 格式）。

用一句话总结三者关系：满血是原版，蒸馏是浓缩传承，量化是压缩打包。在本地跑 AI，我们用的几乎一定是量化版（或量化过的蒸馏版），这也是为什么 Ollama 能让普通电脑跑起大模型的核心原因。

模型名称里的 B 是什么？

每个模型都有好几种版本，7B/14B/32B 等，B 是 Billion（十亿），衡量的是模型的参数数量。7B = 70亿个参数，70B = 700亿个参数。参数就是模型在训练过程中学到的所有数值。

参数量衡量的是模型有多大，不是精度。可以把参数理解成模型的记忆格子数——格子越多，能记住的知识越多、能做的推理越复杂，但同时需要的显存和算力也越多。

而精度是另一个独立的概念，描述的是每个参数用多少位来存储，比如量化版 7B 模型中，FP32 精度和 Q4 量化精度是两回事，参数数量相同，但每个参数占的存储空间不一样。

所以一个模型的完整描述经常同时包含两个维度，比如 qwen2.5:7b-instruct-q4_K_M——7B 说的是参数量，Q4 说的是量化精度。

Ollama 是什么？

Ollama 是一款开源工具，让我们可以在本地计算机上一键下载、运行各种主流大语言模型（LLM），无需联网、无需 API Key、无需月费订阅。Ollama 提供对模型量化的支持，可以显著降低显存要求，使得在普通家用计算机上运行大型模型成为可能。如果你持有最近已经卖断货的 Mac mini M4，那就更适合通过 Ollama 部署本地 LLM 了^_

它支持的模型包括：

模型	特点
`llama3.2`	Meta 开源旗舰，综合能力强
`qwen3.5`	阿里通义系列，中文表现优秀
`deepseek-r1`	国产推理模型，思维链能力突出
`mistral`	欧洲出品，轻量高效
`gemma3`	Google 开源，代码能力强
`phi4`	微软小钢炮，资源占用少

环境要求

运行 Ollama 之前，先确认你的硬件：

操作系统：macOS 11+、Linux（主流发行版）、Windows 10/11
内存：建议 8GB+（跑 7B 模型），16GB+（跑 13B 模型）
显卡（可选但推荐）：支持 NVIDIA（CUDA）、AMD（ROCm）、Apple Silicon（Metal）
磁盘空间：根据模型大小，预留 5~30GB

没有独显也没关系，Ollama 支持 CPU 推理，只是速度会慢。

安装 Ollama

macOS / Linux（推荐）

打开终端，执行一行命令：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，Ollama 会自动在后台启动服务，监听 http://localhost:11434。

Windows

前往官网下载安装包：

https://ollama.com/download

下载 .exe 文件，双击安装即可，安装后会出现系统托盘图标。

验证安装

ollama --version
# 输出示例：ollama version is 0.17.7

下载并运行第一个模型

拉取模型

# 下载 Llama 3.2（3B，约 2GB）
ollama pull llama3.2:3b

# 下载通义千问（中文友好）
ollama pull qwen3.5:9b

# 下载 DeepSeek-R1（推理增强版）
ollama pull deepseek-r1:14b

直接对话

ollama run llama3.2:3b

运行后进入交互式对话界面：

>>> 你好，请介绍一下自己
我是 Llama 3.2，一个由 Meta 开发的大语言模型...

>>> /bye   # 输入 /bye 退出对话

单次问答（非交互模式）

echo "用 Python 写一个冒泡排序" | ollama run qwen2.5

常用命令速查

# 查看已下载的模型列表
ollama list

# 查看正在运行的模型
ollama ps

# 删除模型（释放磁盘空间）
ollama rm llama3.2:3b

# 从远程拉取最新版本
ollama pull llama3.2:latest

通过 REST API 调用

Ollama 启动后会在本地暴露一个 HTTP API，兼容 OpenAI 接口格式，方便开发者集成。

基础对话接口

curl http://localhost:11434/api/chat /
  -d '{
    "model": "qwen2.5",
    "messages": [
      { "role": "user", "content": "解释一下什么是 RAG 技术" }
    ],
    "stream": false
  }'

Python 调用示例

import requests

def chat(prompt: str, model: str = "qwen2.5") -> str:
    response = requests.post(
        "http://localhost:11434/api/chat",
        json={
            "model": model,
            "messages": [{"role": "user", "content": prompt}],
            "stream": False
        }
    )
    return response.json()["message"]["content"]

# 使用示例
result = chat("用一句话解释量子纠缠")
print(result)

使用官方 Python SDK

pip install ollama

import ollama

# 流式输出
for chunk in ollama.chat(
    model="llama3.2",
    messages=[{"role": "user", "content": "写一首关于春天的诗"}],
    stream=True
):
    print(chunk["message"]["content"], end="", flush=True)

搭配 Open WebUI 使用（图形界面）

命令行不够直观？用 Open WebUI 给 Ollama 加一个类 ChatGPT 的可视化界面！

Ollama 官方（v0.10.0+）确实有自带的桌面 GUI，但它定位是轻量、开箱即用的基础交互；而 Open WebUI 是功能更全、可扩展、适合深度使用的增强型 Web 界面。两者定位不同，所以很多人仍会安装 Open WebUI。

通过 Docker 一键启动

docker run -d /
  -p 3000:8080 /
  --add-host=host.docker.internal:host-gateway /
  -v open-webui:/app/backend/data /
  --name open-webui /
  ghcr.io/open-webui/open-webui:main

启动后访问 http://localhost:3000，即可看到完整的 Web 对话界面，支持：

上传文档进行问答（RAG）
多模型切换对比
历史对话管理
系统提示词自定义
需要团队/多用户使用

创建自定义模型（Modelfile）

Ollama 支持通过 Modelfile 定制你自己的模型，类似 Docker 的 Dockerfile。

示例：创建一个中文助手

新建文件 Modelfile：

FROM qwen2.5

# 设置温度（创造性）
PARAMETER temperature 0.7

# 设定系统角色
SYSTEM """
你是一位专业的中文写作助手，擅长撰写公众号文章、营销文案和商业报告。
回答时请使用简洁有力的中文，避免冗余表达。
"""

构建并运行：

# 构建自定义模型
ollama create my-writer -f Modelfile

# 运行
ollama run my-writer

性能优化小技巧

选择合适的模型大小

内存	推荐模型规模
8GB	3B ~ 7B
16GB	7B ~ 13B
32GB	13B ~ 30B
64GB+	70B 量化版

使用量化模型节省资源

# Q4 量化版，内存占用减少约 50%，质量略降
ollama pull qwen2.5:7b-instruct-q4_K_M

设置并发线程数

# 在启动 Ollama 前设置环境变量
export OLLAMA_NUM_PARALLEL=4

修改模型存储位置

参数较多的模型一般会占用较大的存储空间，下载前最好设置好存储位置，默认仅供本机访问，可同时打开允许其它设备访问的开关，默认只允许本机访问。

常见问题

Q：模型下载太慢怎么办？
A：可以配置代理，或使用国内镜像。在 Linux 上设置 OLLAMA_HOST 环境变量指向镜像源。

Q：运行时提示内存不足？
A：换用更小参数量或更高压缩比（如 Q2、Q4）的量化模型。

Q：如何在局域网内共享 Ollama？
A：修改监听地址：

OLLAMA_HOST=0.0.0.0:11434 ollama serve

其他设备通过 http://你的IP:11434 即可访问。也可以在 Ollama 的设置中修改，参考上图。

写在最后

Ollama 让本地大模型部署变得像安装一个 App 一样简单。无论你是想保护数据隐私、节省 API 费用，还是想深度定制和研究大模型，它都是目前最好用的工具之一。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2026行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

7. 资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇
在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

文科生手搓软件？被过度神化的AI：从Claude Code源码看智能体开发的五大不可避免的天坑

AtomGit开源社区

Claude Code技能系统全解析——什么是Skills、为什么用、怎么装

Claude Code技能系统摘要 Claude Code Skills是一种提示词扩展系统，通过SKILL.md文件为AI注入新能力。关键特点包括：模块化设计：每个技能包含YAML元数据和Markdown指令，支持附属文件智能触发：根据描述自动判断使用场景，按需加载节省token 多级作用域：支持企业/个人/项目/插件四级作用域，优先级明确动态能力：可运行shell命令、创建子代理，支持实