title: DeepSeek本地部署实战:30分钟搭建你的私人AI助手
tags: [DeepSeek, 大模型, 本地部署, AI应用, Ollama]
date: 2026-03-13

2026年,国产大模型DeepSeek彻底火了。

作为一名普通开发者,我一直想在自己的电脑上跑一个大模型,不用联网、不用付费、数据完全私密。折腾了一周,终于把DeepSeek跑通了。

这篇文章分享我从零开始本地部署DeepSeek的完整过程,包括踩过的坑和解决方案。不是什么高端教程,就是一个普通程序员的实战记录。

一、为什么要本地部署?

说实话,用网页版DeepSeek挺方便的,但有几个问题让我不得不考虑本地部署:

1. 数据隐私
公司代码、内部文档,这些东西我实在不敢往网上传。

2. 网络依赖
有时候网不好,或者公司网络限制,网页版用不了。

3. 费用问题
DeepSeek虽然便宜,但高频使用下来也是一笔开销。

4. 定制需求
我想把DeepSeek接进自己的工作流,网页版不够灵活。

二、硬件准备

先说结论:8G显存起步,16G更稳

我的配置:

  • 显卡:RTX 3060 12G
  • 内存:32G
  • 硬盘:50G可用空间

如果你是Mac用户,M1/M2芯片的MacBook也能跑,但速度会慢一些。

显存对照表:

模型版本 最低显存 推荐显存 备注
DeepSeek 1.5B 4G 6G 轻量版,速度快
DeepSeek 7B 8G 12G 主推版本
DeepSeek 14B 16G 24G 效果最好

三、安装Ollama(最简单的方式)

试过很多方案(llama.cpp、vLLM、text-generation-webui),最后发现Ollama是最省事的

3.1 下载安装

Windows用户:

# 去官网下载安装包
https://ollama.com/download

# 或者用winget
winget install Ollama.Ollama

Mac用户:

brew install ollama

Linux用户:

curl -fsSL https://ollama.com/install.sh | sh

3.2 启动服务

# 启动Ollama服务
ollama serve

# 另开一个终端,测试是否正常
ollama run llama2

如果看到对话界面,说明安装成功。

四、部署DeepSeek

4.1 拉取模型

# 拉取DeepSeek 7B(推荐)
ollama pull deepseek-r1:7b

# 如果显存不够,用1.5B版本
ollama pull deepseek-r1:1.5b

# 显卡好的可以用14B
ollama pull deepseek-r1:14b

第一次拉取需要下载模型文件(7B约4G),耐心等待。

4.2 测试运行

ollama run deepseek-r1:7b

看到 >>> 提示符就可以开始对话了。

试试这几个问题:

>>> 用Python写一个快速排序
>>> 解释一下Transformer架构
>>> 帮我写一封请假邮件

五、踩过的坑

坑1:显存不足报错

现象:

CUDA out of memory. Tried to allocate 2.00 GiB

解决:

  1. 换小一点的模型(7B → 1.5B)
  2. 关闭其他占用显存的程序
  3. 调整量化参数
# 使用4bit量化版本
ollama pull deepseek-r1:7b-q4

坑2:中文乱码

**现象:**输出中文变成乱码或问号

解决:

# 设置环境变量
export LANG=zh_CN.UTF-8
export LC_ALL=zh_CN.UTF-8

坑3:响应速度慢

**现象:**生成速度只有1-2 token/s

解决:

  1. 确认使用GPU而非CPU
  2. 检查显卡驱动是否最新
  3. 关闭不必要的后台程序
# 查看GPU使用情况
nvidia-smi

坑4:服务启动失败

现象:

Error: listen tcp 127.0.0.1:11434: bind: address already in use

解决:

# 查找并杀掉占用端口的进程
lsof -i :11434
kill -9 <PID>

# 重启服务
ollama serve

六、进阶:接入自己的应用

6.1 API调用

Ollama默认提供HTTP API:

import requests

response = requests.post('http://localhost:11434/api/generate', json={
    "model": "deepseek-r1:7b",
    "prompt": "写一个冒泡排序",
    "stream": False
})

print(response.json()['response'])

6.2 Python SDK

pip install ollama
import ollama

# 同步调用
response = ollama.chat(model='deepseek-r1:7b', messages=[
    {'role': 'user', 'content': 'Hello!'}
])
print(response['message']['content'])

# 流式输出
for chunk in ollama.chat(model='deepseek-r1:7b', messages=[
    {'role': 'user', 'content': '讲个笑话'}
], stream=True):
    print(chunk['message']['content'], end='', flush=True)

6.3 接入VS Code

安装 Continue 插件,配置本地Ollama:

{
  "models": [{
    "title": "DeepSeek Local",
    "provider": "ollama",
    "model": "deepseek-r1:7b"
  }]
}

七、性能优化建议

7.1 模型选择

场景 推荐模型 原因
日常对话 1.5B 速度快,够用
代码生成 7B 理解能力强
复杂推理 14B 效果最好

7.2 参数调优

# 调整温度参数(创造性 vs 稳定性)
ollama run deepseek-r1:7b --temperature 0.7

# 设置最大token数
ollama run deepseek-r1:7b --num-predict 2048

7.3 批量处理

# 批量处理多个prompt
prompts = ["翻译这段话", "总结这段话", "改写这段话"]
for p in prompts:
    response = ollama.chat(model='deepseek-r1:7b', messages=[
        {'role': 'user', 'content': p}
    ])
    print(response['message']['content'])

八、与网页版的对比

对比项 本地部署 网页版
数据隐私 ✅ 完全本地 ❌ 上传云端
网络依赖 ✅ 无需联网 ❌ 必须联网
费用 ✅ 免费 ⚠️ 按量付费
响应速度 ⚠️ 看硬件 ✅ 服务器快
模型版本 ⚠️ 有限 ✅ 最新版
定制能力 ✅ 完全可控 ❌ 功能受限

九、总结

本地部署DeepSeek的核心步骤:

  1. 准备硬件:8G显存起步
  2. 安装Ollama:一行命令搞定
  3. 拉取模型ollama pull deepseek-r1:7b
  4. 开始使用ollama run deepseek-r1:7b

适合本地部署的人群:

  • 对数据隐私有要求的开发者
  • 需要高频使用的重度用户
  • 想要定制化集成的技术玩家

不适合的人群:

  • 硬件配置太低的用户
  • 只是偶尔用一下
  • 不想折腾的技术小白

写在最后

本地部署大模型听起来很高端,其实门槛没那么高。

只要有一块差不多的显卡,按照这篇文章一步步来,30分钟就能跑起来。

动手比焦虑重要。今天就开始,跑起来你就赢了。

有问题欢迎评论区交流!


本文首发于CSDN,转载请注明出处

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐