Ollama 本地部署大模型完全指南——零门槛实现「本地 AI 自由」

🎯 本文目标:看完这篇,你能在自己的电脑上跑起来大模型,像用 ChatGPT 一样本地对话,不用联网,不用交 API 费用。


一、Ollama 是什么?为什么需要它?

1.1 痛点:想本地跑模型,太难了

如果你想在自己的电脑上跑一个大模型(比如Deepseek、Qwen),传统方式是这样的:

  1. 配置 Python 环境,装 CUDA、PyTorch
  2. 找模型权重文件,几 GB 到几十 GB
  3. 写推理代码,处理各种依赖冲突
  4. 调参数、优化显存占用……

劝退指数:⭐⭐⭐⭐⭐建议直接放弃

1.2 Ollama 的解决方案

Ollama 把这一切简化成了 Docker 式的体验
如果你不会Docker的话可以先往下看

# 一行命令下载并运行模型
ollama run qwen3.5:4b

就像 Docker 拉镜像一样简单,Ollama 帮你把模型下载、量化、运行环境全部搞定。你只需要关心「用哪个模型」「问什么问题」。

Ollama 的核心价值

  • 零配置:不需要手动装 PyTorch、CUDA,装好 Ollama 直接用
  • 跨平台:macOS、Windows、Linux 全支持
  • 模型丰富:Kimi、DeepSeek-R1、Glm、Qwen、Gemma 等主流开源模型全覆盖
  • 隐私保护:数据安全在本地,不传云端
  • 断网可用:没有网络也能跑

1.3 Ollama 是哪家公司做的?

Ollama 由 Ollama Inc. 开发,创始人是 Jeffrey Morgan(曾在 Docker 工作过)和 Michael Chiang,公司在美国加州。2021 年成立,是 Y Combinator 孵化项目。

关键信息

  • 开源免费:GitHub 50k+ Stars,GitHub完全开源超级友好
  • 商业运营:提供云端服务(Pro 约 $20/月),但本地使用完全免费,当然算力也是消耗你自己本地的GPU算力

二、安装 Ollama

硬件要求(必看)

在装之前,先看看你的电脑能不能跑:

模型规模 最小内存 推荐内存 显存需求(GPU)
7B(如 Qwen3.5-7B) 8GB 16GB 6GB+
13B 16GB 32GB 12GB+
33B+ 32GB 64GB 24GB+

纯 CPU 也能跑,只是速度慢一些。如果有 GPU(NVIDIA/AMD/Apple M 系列),速度会快很多。

1. Windows 安装

方式一:官网下载安装包(推荐)

  1. 访问官网:https://ollama.com/download
  2. 下载 OllamaSetup.exe
  3. 双击安装,一路「下一步」
  4. 安装完成后,Ollama 会在后台自动运行

❌️缺点:国内下载慢可以找梯子 ,也有付费一块的黑商中文站🐶

方式二:命令行安装

# 使用 winget 安装
winget install Ollama.Ollama

验证安装

ollama --version
# 输出版本号:ollama version is 0.x.x

2.MacOS 安装

方式一:Homebrew(推荐)

brew install ollama

方式二:官网下载 DMG

  1. 访问 https://ollama.com/download
  2. 下载 ollama.dmg
  3. 拖到 Applications 文件夹

系统要求:macOS Sonoma (v14) 或更新版本。

3. Linux 安装

一键安装脚本

curl -fsSL https://ollama.com/install.sh | sh

作为服务运行

# 启动服务
sudo systemctl start ollama

# 查看状态
sudo systemctl status ollama

# 设置开机自启
sudo systemctl enable ollama

4. Docker 方式安装(适合服务器)

CPU 版本

# 后台启动 Ollama 服务(本地大模型运行环境)
docker run -d \
  # 数据持久化挂载:将容器内模型存储目录映射到宿主机,防止删除容器后模型丢失
  -v ollama:/root/.ollama \
  # 端口映射:宿主机11434 → 容器11434(Ollama默认API端口)
  -p 11434:11434 \
  # 指定容器名称,方便后续管理(重启/停止/日志查看)
  --name ollama \
  # 使用官方 Ollama 镜像
  ollama/ollama

GPU 版本(NVIDIA)

# 需要先安装 NVIDIA Container Toolkit
# 后台启动 Ollama 容器(启用GPU加速,适合NVIDIA显卡)
docker run -d \
  # 启用所有GPU,让Ollama使用显卡加速运行大模型
  --gpus=all \
  # 数据卷挂载:持久化保存模型,容器删除后模型不丢失
  -v ollama:/root/.ollama \
  # 端口映射:本地11434端口映射到容器11434(Ollama默认端口)
  -p 11434:11434 \
  # 给容器命名为 ollama,方便管理
  --name ollama \
  # 使用官方 Ollama 镜像
  ollama/ollama

三、快速上手:跑起来第一个模型

1.去哪找模型?

Ollama 官方模型库:https://ollama.com/library

这里列出了所有支持的模型,每个模型页面都有运行命令,复制粘贴就能用。

热门模型推荐
每个模型针对的场景不一样,图片视频文字输出都有对应表现极强的模型

模型 命令 特点 适用场景
Qwen3.5 ollama run qwen3.5:4b 中文效果好,性价比高 日常对话、写作(也支持图像识别)
DeepSeek-R1 ollama run deepseek-r1:7b 推理能力强 编程、逻辑推理
Llama 3.2 ollama run llama3.2:3b 轻量、速度快 快速问答
Gemma 3 ollama run gemma3:4b Google 开源 通用任务
Llama 3.2 Vision ollama run llama3.2-vision 支持图片输入 图像识别

2 .运行第一个模型

假设你已经装好了 Ollama,打开终端执行:

ollama run qwen3.5:4b

第一次运行会自动下载模型(约 4-5GB),下载完成后会进入交互界面:

>>> Send a message (/? for help)

试试对话

>>> 你好,请用 Java 写一个 Hello World

// 输出:
public class HelloWorld {
    public static void main(String[] args) {
        System.out.println("Hello, World!");
    }
}

退出交互

>>> /bye

或者按 Ctrl + D

3.单次生成(不进入交互)

# 直接问问题,输出后自动退出
ollama run qwen3.5:4b "Java 中 ArrayList 和 LinkedList 的区别是什么?"

四、Ollama 常用命令速查

1. 命令总表

分类 命令 作用
基础 ollama --version 查看版本
基础 ollama help 查看帮助
模型管理 ollama pull <模型名> 下载模型
模型管理 ollama list 查看已安装模型
模型管理 ollama show <模型名> 查看模型详情
模型管理 ollama rm <模型名> 删除模型
运行 ollama run <模型名> 交互模式运行
运行 ollama run <模型名> "提示词" 单次生成
服务 ollama serve 启动 API 服务
服务 ollama ps 查看运行中的模型
服务 ollama stop <模型名> 停止模型

2. 常用场景示例

下载模型(不运行

ollama pull qwen3.5:4b

查看本地已下载的模型

ollama list

# 输出示例:
# NAME              ID              SIZE    MODIFIED
# qwen2.5:7b        abc123...       4.7 GB  2 hours ago
# llama3.2:3b       def456...       2.0 GB  1 day ago

查看模型详细信息

ollama show qwen3.5:4b

# 输出包含:模型架构、参数量、量化方式、上下文长度等

删除不需要的模型

ollama rm llama3.2:3b

查看当前运行中的模型

ollama ps

# 输出示例:
# NAME       ID          SIZE    PROCESSOR    UNTIL
# qwen2.5    abc123...   5.2 GB  100% GPU     4 minutes from now

五、模型量化:让大模型跑在普通电脑上

1. 什么是量化?

打个比方

  • FP32(32位浮点数):就像一份精确到小数点后 7 位的财务报表,数据精确但体积大
  • INT4(4位整数):相当于四舍五入到个位,精度有损失但体积小很多

量化就是把模型从「高精度」转成「低精度」,牺牲一点质量换取更小的体积和更快的速度。

2.量化等级对比

量化类型 平均位数 7B 模型大小 质量评级 适用场景
Q4_K_M 4.5 位 ~4.1 GB ⭐⭐⭐⭐ 默认推荐,平衡质量与速度
Q5_K_M 5.5 位 ~5 GB ⭐⭐⭐⭐⭐ 对质量要求高
Q8_0 8 位 ~8 GB ⭐⭐⭐⭐⭐ 近乎无损,需要大显存
Q3_K_M 3.5 位 ~3 GB ⭐⭐⭐ 资源紧张时用
Q2_K 2 位 ~2 GB ⭐⭐ 极限压缩,质量损失明显

选择建议

  • 🎯 日常使用:Q4_K_M(默认,Ollama 自动使用)
  • 💎 追求质量:Q5_K_M 或 Q8_0
  • 💰 显存紧张:Q3_K_M

3. 如何指定量化版本?

在模型名后加标签:

# 默认 Q4_K_M 量化
ollama run qwen2.5:7b

# 指定 Q5 量化
ollama run qwen2.5:7b-q5

# 指定 Q8 量化
ollama run qwen2.5:7b-q8_0

六、通过 API 调用 Ollama

Ollama 提供了 REST API,可以在你的代码中调用本地模型。
不用花钱用收费的API Key了,速度看你显卡🐶

1. 启动 API 服务

ollama serve

默认监听 http://localhost:11434

2. REST API 调用示例

基础对话

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:4b",
  "messages": [
    {"role": "user", "content": "你好,介绍一下 Java 的异常处理机制"}
  ]
}'

流式输出(stream)

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [
    {"role": "user", "content": "用 Java 写一个单例模式"}
  ],
  "stream": true
}'

3. Python SDK 调用

安装 SDK

pip install ollama

代码示例

from ollama import chat

# 流式输出
response = chat(
    model='qwen3.5:4b',
    messages=[
        {'role': 'user', 'content': '请解释 Java 中的多态'},
    ],
    stream=True
)

for chunk in response:
    print(chunk['message']['content'], end='', flush=True)

结构化输出(JSON 格式)

from ollama import chat
from pydantic import BaseModel

class Person(BaseModel):
    name: str
    age: int
    city: str

response = chat(
    model='qwen3.5:4b',
    messages=[{'role': 'user', 'content': '生成一个随机人物信息'}],
    format=Person.model_json_schema(),
)

person = Person.model_validate_json(response.message.content)
print(f"姓名: {person.name}, 年龄: {person.age}, 城市: {person.city}")

七、自定义模型:修改系统提示词

1. 创建自定义模型

比如你想让模型「说话像鲁迅」,可以创建一个 Modelfile:

创建文件 Modelfile

FROM qwen3.5:4b
SYSTEM 你是鲁迅,说话带点讽刺和挖苦,但要有深意。用简练的文言风格回答问题。

构建自定义模型

ollama create qwen-luxun -f ./Modelfile

运行自定义模型

ollama run qwen-luxun

>>> 你怎么看现代人沉迷手机?

// 输出示例:
// 世人皆以方寸之屏为安身立命之所,地铁车厢内,人人低头如丧考妣。
// 屏幕闪烁间,魂魄俱被勾去,而犹自以为得趣。悲夫!

2. 调整模型参数

如果你想固定某些参数(如 temperature),可以在 Modelfile 中设置:

# 基础模型:指定基于 qwen3.5:4b 模型定制
FROM qwen3.5:4b
# 温度系数:控制随机性,数值越低回答越严谨、确定性越强
PARAMETER temperature 0.3
# 核采样:控制生成多样性,取值0-1,平衡连贯与创意
PARAMETER top_p 0.9
# 重复惩罚:抑制文本重复、废话循环,避免话术冗余
PARAMETER repeat_penalty 1.1
# 系统人设:定义角色为严谨技术顾问,要求回答简洁精准
SYSTEM 你是一个严谨的技术顾问,回答简洁准确。

构建后每次运行都会使用这些参数。


八、常见问题与解决方案

1. 模型下载慢 / 卡住

原因:Ollama 默认从国外服务器下载,速度可能很慢。

解决方案

  1. 手动下载 GGUF 文件,然后导入:

    # 创建 Modelfile
    echo 'FROM ./qwen2.5-7b-q4_k_m.gguf' > Modelfile
    
    # 导入到 Ollama
    ollama create qwen2.5:7b -f Modelfile
    
  2. 使用代理(如果你有):

    # Windows 设置代理
    set HTTP_PROXY=http://127.0.0.1:7890
    set HTTPS_PROXY=http://127.0.0.1:7890
    
  3. Ctrl+C 中断后重试:有时能恢复下载
    云服务器大概率遇不到这些问题

3. 模型加载到 CPU 而不是 GPU

检查项

  1. NVIDIA 显卡:安装最新驱动(版本 452.39+)

  2. AMD 显卡:确认 ROCm 支持

  3. 查看运行状态

    ollama ps
    # 如果显示 "100% CPU",说明没用到 GPU
    

强制使用 GPU

# 设置环境变量(Windows PowerShell)
$env:CUDA_VISIBLE_DEVICES="0"

3. 内存不足

症状:模型加载失败,或者速度极慢。

解决方案

  1. 换更小的模型:如 7B 换成 4B
  2. 使用更激进的量化:Q4 换成 Q3 或 Q2
  3. 关闭其他占用内存的程序

8.4 如何查看日志?

Windows

%LOCALAPPDATA%\Ollama\logs\server.log

macOS

~/.ollama/logs/server.log

Linux

journalctl -u ollama -f

九、环境变量配置

Ollama 支持通过环境变量定制行为:

变量名 默认值 说明
OLLAMA_MODELS ~/.ollama/models 模型存储路径(可改到其他盘)
OLLAMA_HOST 127.0.0.1:11434 API 监听地址(改成 0.0.0.0 允许局域网访问)
OLLAMA_NUM_GPU 自动检测 GPU 数量
OLLAMA_CONTEXT_LENGTH 自动(4k-256k) 上下文长度

Windows 设置示例

# 永久设置(需要重启 Ollama)
setx OLLAMA_MODELS "F:\ollama_models"

十、总结 核心要点

  1. Ollama = Docker 式的大模型管理工具,一行命令下载运行模型
  2. 跨平台支持:Windows / macOS / Linux 都能装
  3. 模型丰富:Qwen、DeepSeek-R1、Llama、Gemma 等主流开源模型
  4. 量化技术:让大模型跑在普通电脑上,Q4_K_M 是默认选择
  5. API 支持:可以用 Python / REST API 在代码中调用

10.2 学习路线建议

第一步:安装 Ollama,跑起来 qwen3.5:4b
    ↓
第二步:熟悉常用命令(pull、run、list、rm)
    ↓
第三步:尝试不同模型(DeepSeek-R1、Llama3.2)
    ↓
第四步:用 Python SDK 调用 API
    ↓
第五步:创建自定义模型(修改 system prompt)

10.3 资源链接

  • 🌐 Ollama 官网:https://ollama.com
  • 📚 模型库:https://ollama.com/library
  • 💻 GitHub:https://github.com/ollama/ollama
  • 📖 官方文档:https://docs.ollama.com


作者:书源丶
发布平台:CSDN
系列:AI 大模型本地化实践
日期:2026-04-29

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐