DeepSeek本地部署实战：30分钟搭建你的私人AI助手

qq_27588027

594人浏览 · 2026-03-13 18:35:31

qq_27588027 · 2026-03-13 18:35:31 发布

title: DeepSeek本地部署实战：30分钟搭建你的私人AI助手
tags: [DeepSeek, 大模型, 本地部署, AI应用, Ollama]
date: 2026-03-13

2026年，国产大模型DeepSeek彻底火了。

作为一名普通开发者，我一直想在自己的电脑上跑一个大模型，不用联网、不用付费、数据完全私密。折腾了一周，终于把DeepSeek跑通了。

这篇文章分享我从零开始本地部署DeepSeek的完整过程，包括踩过的坑和解决方案。不是什么高端教程，就是一个普通程序员的实战记录。

一、为什么要本地部署？

说实话，用网页版DeepSeek挺方便的，但有几个问题让我不得不考虑本地部署：

1. 数据隐私
公司代码、内部文档，这些东西我实在不敢往网上传。

2. 网络依赖
有时候网不好，或者公司网络限制，网页版用不了。

3. 费用问题
DeepSeek虽然便宜，但高频使用下来也是一笔开销。

4. 定制需求
我想把DeepSeek接进自己的工作流，网页版不够灵活。

二、硬件准备

先说结论：8G显存起步，16G更稳。

我的配置：

显卡：RTX 3060 12G
内存：32G
硬盘：50G可用空间

如果你是Mac用户，M1/M2芯片的MacBook也能跑，但速度会慢一些。

显存对照表：

模型版本	最低显存	推荐显存	备注
DeepSeek 1.5B	4G	6G	轻量版，速度快
DeepSeek 7B	8G	12G	主推版本
DeepSeek 14B	16G	24G	效果最好

三、安装Ollama（最简单的方式）

试过很多方案（llama.cpp、vLLM、text-generation-webui），最后发现Ollama是最省事的。

3.1 下载安装

Windows用户：

# 去官网下载安装包
https://ollama.com/download

# 或者用winget
winget install Ollama.Ollama

Mac用户：

brew install ollama

Linux用户：

curl -fsSL https://ollama.com/install.sh | sh

3.2 启动服务

# 启动Ollama服务
ollama serve

# 另开一个终端，测试是否正常
ollama run llama2

如果看到对话界面，说明安装成功。

四、部署DeepSeek

4.1 拉取模型

# 拉取DeepSeek 7B（推荐）
ollama pull deepseek-r1:7b

# 如果显存不够，用1.5B版本
ollama pull deepseek-r1:1.5b

# 显卡好的可以用14B
ollama pull deepseek-r1:14b

第一次拉取需要下载模型文件（7B约4G），耐心等待。

4.2 测试运行

ollama run deepseek-r1:7b

看到 >>> 提示符就可以开始对话了。

试试这几个问题：

>>> 用Python写一个快速排序
>>> 解释一下Transformer架构
>>> 帮我写一封请假邮件

五、踩过的坑

坑1：显存不足报错

现象：

CUDA out of memory. Tried to allocate 2.00 GiB

解决：

换小一点的模型（7B → 1.5B）
关闭其他占用显存的程序
调整量化参数

# 使用4bit量化版本
ollama pull deepseek-r1:7b-q4

坑2：中文乱码

**现象：**输出中文变成乱码或问号

解决：

# 设置环境变量
export LANG=zh_CN.UTF-8
export LC_ALL=zh_CN.UTF-8

坑3：响应速度慢

**现象：**生成速度只有1-2 token/s

解决：

确认使用GPU而非CPU
检查显卡驱动是否最新
关闭不必要的后台程序

# 查看GPU使用情况
nvidia-smi

坑4：服务启动失败

现象：

Error: listen tcp 127.0.0.1:11434: bind: address already in use

解决：

# 查找并杀掉占用端口的进程
lsof -i :11434
kill -9 <PID>

# 重启服务
ollama serve

六、进阶：接入自己的应用

6.1 API调用

Ollama默认提供HTTP API：

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    "model": "deepseek-r1:7b",
    "prompt": "写一个冒泡排序",
    "stream": False
})

print(response.json()['response'])

6.2 Python SDK

pip install ollama

import ollama

# 同步调用
response = ollama.chat(model='deepseek-r1:7b', messages=[
    {'role': 'user', 'content': 'Hello!'}
])
print(response['message']['content'])

# 流式输出
for chunk in ollama.chat(model='deepseek-r1:7b', messages=[
    {'role': 'user', 'content': '讲个笑话'}
], stream=True):
    print(chunk['message']['content'], end='', flush=True)

6.3 接入VS Code

安装 Continue 插件，配置本地Ollama：

{
  "models": [{
    "title": "DeepSeek Local",
    "provider": "ollama",
    "model": "deepseek-r1:7b"
  }]
}

七、性能优化建议

7.1 模型选择

场景	推荐模型	原因
日常对话	1.5B	速度快，够用
代码生成	7B	理解能力强
复杂推理	14B	效果最好

7.2 参数调优

# 调整温度参数（创造性 vs 稳定性）
ollama run deepseek-r1:7b --temperature 0.7

# 设置最大token数
ollama run deepseek-r1:7b --num-predict 2048

7.3 批量处理

# 批量处理多个prompt
prompts = ["翻译这段话", "总结这段话", "改写这段话"]
for p in prompts:
    response = ollama.chat(model='deepseek-r1:7b', messages=[
        {'role': 'user', 'content': p}
    ])
    print(response['message']['content'])

八、与网页版的对比

对比项	本地部署	网页版
数据隐私	✅ 完全本地	❌ 上传云端
网络依赖	✅ 无需联网	❌ 必须联网
费用	✅ 免费	⚠️ 按量付费
响应速度	⚠️ 看硬件	✅ 服务器快
模型版本	⚠️ 有限	✅ 最新版
定制能力	✅ 完全可控	❌ 功能受限

九、总结

本地部署DeepSeek的核心步骤：

准备硬件：8G显存起步
安装Ollama：一行命令搞定
拉取模型：ollama pull deepseek-r1:7b
开始使用：ollama run deepseek-r1:7b

适合本地部署的人群：

对数据隐私有要求的开发者
需要高频使用的重度用户
想要定制化集成的技术玩家

不适合的人群：

硬件配置太低的用户
只是偶尔用一下
不想折腾的技术小白

写在最后

本地部署大模型听起来很高端，其实门槛没那么高。

只要有一块差不多的显卡，按照这篇文章一步步来，30分钟就能跑起来。

动手比焦虑重要。今天就开始，跑起来你就赢了。

有问题欢迎评论区交流！

本文首发于CSDN，转载请注明出处

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

国家超算互联网平台正式接入DeepSeek V4，普通用户注册之后可直接使用

AtomGit开源社区

大模型算法工程师面试宝典

AtomGit开源社区

CLIP深度解析：从原理到落地，解锁多模态AI的核心密码 (1)

CLIP 不仅是一个模型，更是一种 “用自然语言解锁通用视觉能力” 的范式革命：打破了 “视觉模型依赖人工标注” 的固有认知；定义了 “双编码器 + 对比学习” 的多模态预训练框架；成为 AIGC、跨模态检索、通用 AI 的核心基石。未来方向：解决细粒度、抽象任务的能力短板；降低训练与推理成本，推动边缘部署；缓解数据偏见，提升模型公平性；融合更多模态（音频、视频、3D 点云），迈向通用多模态 AI