不用联网、不花一分钱！教你搭建专属私有本地 AI，数据绝不外泄

书源丶

548人浏览 · 2026-04-29 12:19:57

书源丶 · 2026-04-29 12:19:57 发布

Ollama 本地部署大模型完全指南——零门槛实现「本地 AI 自由」

🎯 本文目标：看完这篇，你能在自己的电脑上跑起来大模型，像用 ChatGPT 一样本地对话，不用联网，不用交 API 费用。

一、Ollama 是什么？为什么需要它？

1.1 痛点：想本地跑模型，太难了

如果你想在自己的电脑上跑一个大模型（比如Deepseek、Qwen），传统方式是这样的：

配置 Python 环境，装 CUDA、PyTorch
找模型权重文件，几 GB 到几十 GB
写推理代码，处理各种依赖冲突
调参数、优化显存占用……

劝退指数：⭐⭐⭐⭐⭐建议直接放弃

1.2 Ollama 的解决方案

Ollama 把这一切简化成了 Docker 式的体验：
如果你不会Docker的话可以先往下看

# 一行命令下载并运行模型
ollama run qwen3.5:4b

就像 Docker 拉镜像一样简单，Ollama 帮你把模型下载、量化、运行环境全部搞定。你只需要关心「用哪个模型」「问什么问题」。

Ollama 的核心价值：

✅ 零配置：不需要手动装 PyTorch、CUDA，装好 Ollama 直接用
✅ 跨平台：macOS、Windows、Linux 全支持
✅ 模型丰富：Kimi、DeepSeek-R1、Glm、Qwen、Gemma 等主流开源模型全覆盖
✅ 隐私保护：数据安全在本地，不传云端
✅ 断网可用：没有网络也能跑

1.3 Ollama 是哪家公司做的？

Ollama 由 Ollama Inc. 开发，创始人是 Jeffrey Morgan（曾在 Docker 工作过）和 Michael Chiang，公司在美国加州。2021 年成立，是 Y Combinator 孵化项目。

关键信息：

✅ 开源免费：GitHub 50k+ Stars，GitHub完全开源超级友好
✅ 商业运营：提供云端服务（Pro 约 $20/月），但本地使用完全免费，当然算力也是消耗你自己本地的GPU算力

二、安装 Ollama

硬件要求（必看）

在装之前，先看看你的电脑能不能跑：

模型规模	最小内存	推荐内存	显存需求（GPU）
7B（如 Qwen3.5-7B）	8GB	16GB	6GB+
13B	16GB	32GB	12GB+
33B+	32GB	64GB	24GB+

纯 CPU 也能跑，只是速度慢一些。如果有 GPU（NVIDIA/AMD/Apple M 系列），速度会快很多。

1. Windows 安装

方式一：官网下载安装包（推荐）

访问官网：https://ollama.com/download
下载 OllamaSetup.exe
双击安装，一路「下一步」
安装完成后，Ollama 会在后台自动运行

❌️缺点：国内下载慢可以找梯子，也有付费一块的黑商中文站🐶

方式二：命令行安装

# 使用 winget 安装
winget install Ollama.Ollama

验证安装：

ollama --version
# 输出版本号：ollama version is 0.x.x

2.MacOS 安装

方式一：Homebrew（推荐）

brew install ollama

方式二：官网下载 DMG

访问 https://ollama.com/download
下载 ollama.dmg
拖到 Applications 文件夹

系统要求：macOS Sonoma (v14) 或更新版本。

3. Linux 安装

一键安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

作为服务运行：

# 启动服务
sudo systemctl start ollama

# 查看状态
sudo systemctl status ollama

# 设置开机自启
sudo systemctl enable ollama

4. Docker 方式安装（适合服务器）

CPU 版本：

# 后台启动 Ollama 服务（本地大模型运行环境）
docker run -d \
  # 数据持久化挂载：将容器内模型存储目录映射到宿主机，防止删除容器后模型丢失
  -v ollama:/root/.ollama \
  # 端口映射：宿主机11434 → 容器11434（Ollama默认API端口）
  -p 11434:11434 \
  # 指定容器名称，方便后续管理（重启/停止/日志查看）
  --name ollama \
  # 使用官方 Ollama 镜像
  ollama/ollama

GPU 版本（NVIDIA）：

# 需要先安装 NVIDIA Container Toolkit
# 后台启动 Ollama 容器（启用GPU加速，适合NVIDIA显卡）
docker run -d \
  # 启用所有GPU，让Ollama使用显卡加速运行大模型
  --gpus=all \
  # 数据卷挂载：持久化保存模型，容器删除后模型不丢失
  -v ollama:/root/.ollama \
  # 端口映射：本地11434端口映射到容器11434（Ollama默认端口）
  -p 11434:11434 \
  # 给容器命名为 ollama，方便管理
  --name ollama \
  # 使用官方 Ollama 镜像
  ollama/ollama

三、快速上手：跑起来第一个模型

1.去哪找模型？

Ollama 官方模型库：https://ollama.com/library

这里列出了所有支持的模型，每个模型页面都有运行命令，复制粘贴就能用。

热门模型推荐：
每个模型针对的场景不一样，图片视频文字输出都有对应表现极强的模型

模型	命令	特点	适用场景
Qwen3.5	`ollama run qwen3.5:4b`	中文效果好，性价比高	日常对话、写作（也支持图像识别）
DeepSeek-R1	`ollama run deepseek-r1:7b`	推理能力强	编程、逻辑推理
Llama 3.2	`ollama run llama3.2:3b`	轻量、速度快	快速问答
Gemma 3	`ollama run gemma3:4b`	Google 开源	通用任务
Llama 3.2 Vision	`ollama run llama3.2-vision`	支持图片输入	图像识别

2 .运行第一个模型

假设你已经装好了 Ollama，打开终端执行：

ollama run qwen3.5:4b

第一次运行会自动下载模型（约 4-5GB），下载完成后会进入交互界面：

>>> Send a message (/? for help)

试试对话：

>>> 你好，请用 Java 写一个 Hello World

// 输出：
public class HelloWorld {
    public static void main(String[] args) {
        System.out.println("Hello, World!");
    }
}

退出交互：

>>> /bye

或者按 Ctrl + D。

3.单次生成（不进入交互）

# 直接问问题，输出后自动退出
ollama run qwen3.5:4b "Java 中 ArrayList 和 LinkedList 的区别是什么？"

四、Ollama 常用命令速查

1. 命令总表

分类	命令	作用
基础	`ollama --version`	查看版本
基础	`ollama help`	查看帮助
模型管理	`ollama pull <模型名>`	下载模型
模型管理	`ollama list`	查看已安装模型
模型管理	`ollama show <模型名>`	查看模型详情
模型管理	`ollama rm <模型名>`	删除模型
运行	`ollama run <模型名>`	交互模式运行
运行	`ollama run <模型名> "提示词"`	单次生成
服务	`ollama serve`	启动 API 服务
服务	`ollama ps`	查看运行中的模型
服务	`ollama stop <模型名>`	停止模型

2. 常用场景示例

下载模型（不运行）：

ollama pull qwen3.5:4b

查看本地已下载的模型：

ollama list

# 输出示例：
# NAME              ID              SIZE    MODIFIED
# qwen2.5:7b        abc123...       4.7 GB  2 hours ago
# llama3.2:3b       def456...       2.0 GB  1 day ago

查看模型详细信息：

ollama show qwen3.5:4b

# 输出包含：模型架构、参数量、量化方式、上下文长度等

删除不需要的模型：

ollama rm llama3.2:3b

查看当前运行中的模型：

ollama ps

# 输出示例：
# NAME       ID          SIZE    PROCESSOR    UNTIL
# qwen2.5    abc123...   5.2 GB  100% GPU     4 minutes from now

五、模型量化：让大模型跑在普通电脑上

1. 什么是量化？

打个比方：

FP32（32位浮点数）：就像一份精确到小数点后 7 位的财务报表，数据精确但体积大
INT4（4位整数）：相当于四舍五入到个位，精度有损失但体积小很多

量化就是把模型从「高精度」转成「低精度」，牺牲一点质量换取更小的体积和更快的速度。

2.量化等级对比

量化类型	平均位数	7B 模型大小	质量评级	适用场景
Q4_K_M	4.5 位	~4.1 GB	⭐⭐⭐⭐	默认推荐，平衡质量与速度
Q5_K_M	5.5 位	~5 GB	⭐⭐⭐⭐⭐	对质量要求高
Q8_0	8 位	~8 GB	⭐⭐⭐⭐⭐	近乎无损，需要大显存
Q3_K_M	3.5 位	~3 GB	⭐⭐⭐	资源紧张时用
Q2_K	2 位	~2 GB	⭐⭐	极限压缩，质量损失明显

选择建议：

🎯 日常使用：Q4_K_M（默认，Ollama 自动使用）
💎 追求质量：Q5_K_M 或 Q8_0
💰 显存紧张：Q3_K_M

3. 如何指定量化版本？

在模型名后加标签：

# 默认 Q4_K_M 量化
ollama run qwen2.5:7b

# 指定 Q5 量化
ollama run qwen2.5:7b-q5

# 指定 Q8 量化
ollama run qwen2.5:7b-q8_0

六、通过 API 调用 Ollama

Ollama 提供了 REST API，可以在你的代码中调用本地模型。
不用花钱用收费的API Key了,速度看你显卡🐶

1. 启动 API 服务

ollama serve

默认监听 http://localhost:11434。

2. REST API 调用示例

基础对话：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:4b",
  "messages": [
    {"role": "user", "content": "你好，介绍一下 Java 的异常处理机制"}
  ]
}'

流式输出（stream）：

curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:7b",
  "messages": [
    {"role": "user", "content": "用 Java 写一个单例模式"}
  ],
  "stream": true
}'

3. Python SDK 调用

安装 SDK：

pip install ollama

代码示例：

from ollama import chat

# 流式输出
response = chat(
    model='qwen3.5:4b',
    messages=[
        {'role': 'user', 'content': '请解释 Java 中的多态'},
    ],
    stream=True
)

for chunk in response:
    print(chunk['message']['content'], end='', flush=True)

结构化输出（JSON 格式）：

from ollama import chat
from pydantic import BaseModel

class Person(BaseModel):
    name: str
    age: int
    city: str

response = chat(
    model='qwen3.5:4b',
    messages=[{'role': 'user', 'content': '生成一个随机人物信息'}],
    format=Person.model_json_schema(),
)

person = Person.model_validate_json(response.message.content)
print(f"姓名: {person.name}, 年龄: {person.age}, 城市: {person.city}")

七、自定义模型：修改系统提示词

1. 创建自定义模型

比如你想让模型「说话像鲁迅」，可以创建一个 Modelfile：

创建文件 Modelfile：

FROM qwen3.5:4b
SYSTEM 你是鲁迅，说话带点讽刺和挖苦，但要有深意。用简练的文言风格回答问题。

构建自定义模型：

ollama create qwen-luxun -f ./Modelfile

运行自定义模型：

ollama run qwen-luxun

>>> 你怎么看现代人沉迷手机？

// 输出示例：
// 世人皆以方寸之屏为安身立命之所，地铁车厢内，人人低头如丧考妣。
// 屏幕闪烁间，魂魄俱被勾去，而犹自以为得趣。悲夫！

2. 调整模型参数

如果你想固定某些参数（如 temperature），可以在 Modelfile 中设置：

# 基础模型：指定基于 qwen3.5:4b 模型定制
FROM qwen3.5:4b
# 温度系数：控制随机性，数值越低回答越严谨、确定性越强
PARAMETER temperature 0.3
# 核采样：控制生成多样性，取值0-1，平衡连贯与创意
PARAMETER top_p 0.9
# 重复惩罚：抑制文本重复、废话循环，避免话术冗余
PARAMETER repeat_penalty 1.1
# 系统人设：定义角色为严谨技术顾问，要求回答简洁精准
SYSTEM 你是一个严谨的技术顾问，回答简洁准确。

构建后每次运行都会使用这些参数。

八、常见问题与解决方案

1. 模型下载慢 / 卡住

原因：Ollama 默认从国外服务器下载，速度可能很慢。

解决方案：

手动下载 GGUF 文件，然后导入：

# 创建 Modelfile
echo 'FROM ./qwen2.5-7b-q4_k_m.gguf' > Modelfile

# 导入到 Ollama
ollama create qwen2.5:7b -f Modelfile

使用代理（如果你有）：

# Windows 设置代理
set HTTP_PROXY=http://127.0.0.1:7890
set HTTPS_PROXY=http://127.0.0.1:7890

Ctrl+C 中断后重试：有时能恢复下载
云服务器大概率遇不到这些问题

3. 模型加载到 CPU 而不是 GPU

检查项：

NVIDIA 显卡：安装最新驱动（版本 452.39+）
AMD 显卡：确认 ROCm 支持

查看运行状态：

ollama ps
# 如果显示 "100% CPU"，说明没用到 GPU

强制使用 GPU：

# 设置环境变量（Windows PowerShell）
$env:CUDA_VISIBLE_DEVICES="0"

3. 内存不足

症状：模型加载失败，或者速度极慢。

解决方案：

换更小的模型：如 7B 换成 4B
使用更激进的量化：Q4 换成 Q3 或 Q2
关闭其他占用内存的程序

8.4 如何查看日志？

Windows：

%LOCALAPPDATA%\Ollama\logs\server.log

macOS：

~/.ollama/logs/server.log

Linux：

journalctl -u ollama -f

九、环境变量配置

Ollama 支持通过环境变量定制行为：

变量名	默认值	说明
`OLLAMA_MODELS`	`~/.ollama/models`	模型存储路径（可改到其他盘）
`OLLAMA_HOST`	`127.0.0.1:11434`	API 监听地址（改成 `0.0.0.0` 允许局域网访问）
`OLLAMA_NUM_GPU`	自动检测	GPU 数量
`OLLAMA_CONTEXT_LENGTH`	自动（4k-256k）	上下文长度

Windows 设置示例：

# 永久设置（需要重启 Ollama）
setx OLLAMA_MODELS "F:\ollama_models"

十、总结 `核心要点`

Ollama = Docker 式的大模型管理工具，一行命令下载运行模型
跨平台支持：Windows / macOS / Linux 都能装
模型丰富：Qwen、DeepSeek-R1、Llama、Gemma 等主流开源模型
量化技术：让大模型跑在普通电脑上，Q4_K_M 是默认选择
API 支持：可以用 Python / REST API 在代码中调用

10.2 学习路线建议

第一步：安装 Ollama，跑起来 qwen3.5:4b
    ↓
第二步：熟悉常用命令（pull、run、list、rm）
    ↓
第三步：尝试不同模型（DeepSeek-R1、Llama3.2）
    ↓
第四步：用 Python SDK 调用 API
    ↓
第五步：创建自定义模型（修改 system prompt）

10.3 资源链接

🌐 Ollama 官网：https://ollama.com
📚 模型库：https://ollama.com/library
💻 GitHub：https://github.com/ollama/ollama
📖 官方文档：https://docs.ollama.com

作者：书源丶
发布平台：CSDN
系列：AI 大模型本地化实践
日期：2026-04-29

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

modelscope v1.37.1 修复 trust_remote_code 兼容性问题：一次看懂 2026-05-22 最新补丁版全部更新

Docker 构建链路模型基类多个视觉模型音频 pipeline多模态 pipelinepipeline 构建器preprocessor 基类trainer 构建器自动模型工具registryversion这说明 v1.37.1 不是单点修补，而是围绕的完整链路修正。代码地址：github.com/modelscope/modelscope总的来说，modelscope v1.37.1 是一次典型

AtomGit开源社区

2026年值得尝试的6个简历制作网站推荐

AtomGit开源社区

基于自抗扰控制ADRC的永磁同步电机仿真模型(Simulink仿真实现）

使用自抗扰控制(ADRC)技术来控制永磁同步电机是一种常见的方法。在进行仿真模型设计时，通常需要考虑永磁同步电机的动态方程、控制策略以及系统的稳定性等因素。1. 首先，编写永磁同步电机的动态方程。这可以是基于电机的物理特性和转子、定子之间的电磁耦合关系建立的微分方程组。2. 接下来，设计ADRC控制器，包括观测器和控制器。ADRC控制器通常包括状态观测器、扰动观测器和控制器三部分，用于实现对系统状

AtomGit开源社区

所有评论(0)

查看更多评论

书源丶

@qq_57423018

已为社区贡献1条内容

不用联网、不花一分钱！教你搭建专属私有本地 AI，数据绝不外泄

书源丶

Ollama 本地部署大模型完全指南——零门槛实现「本地 AI 自由」

一、Ollama 是什么？为什么需要它？

1.1 痛点：想本地跑模型，太难了

1.2 Ollama 的解决方案

1.3 Ollama 是哪家公司做的？

二、安装 Ollama

硬件要求（必看）

1. Windows 安装

2.MacOS 安装

3. Linux 安装

4. Docker 方式安装（适合服务器）

三、快速上手：跑起来第一个模型

1.去哪找模型？

2 .运行第一个模型

3.单次生成（不进入交互）

四、Ollama 常用命令速查

1. 命令总表

2. 常用场景示例

五、模型量化：让大模型跑在普通电脑上

1. 什么是量化？

2.量化等级对比

3. 如何指定量化版本？

六、通过 API 调用 Ollama

1. 启动 API 服务

2. REST API 调用示例

3. Python SDK 调用

七、自定义模型：修改系统提示词

1. 创建自定义模型

2. 调整模型参数

八、常见问题与解决方案

1. 模型下载慢 / 卡住

3. 模型加载到 CPU 而不是 GPU

3. 内存不足

8.4 如何查看日志？

九、环境变量配置

十、总结 核心要点

10.2 学习路线建议

10.3 资源链接

所有评论(0)

温馨提示：您尚未绑定手机号

书源丶

十、总结 `核心要点`