从零到精通:DeepSeek 大模型本地部署全攻略(2026 最新版)

目录



一、为什么要在本地部署大模型?

随着大语言模型(LLM)的飞速发展,DeepSeek 凭借其开源、国产、免费、高性能四大优势,已成为国内开发者和企业的首选。但并非所有场景都适合调用云端 API:

  • 涉密单位:网络隔离环境,无法访问外部服务

  • 数据隐私:医疗、法律、金融等领域,数据不能离开本地

  • 成本控制:高频调用场景下,API 费用累积惊人

  • 低延迟需求:本地推理延迟可控,不受网络波动影响

  • 离线可用:断网环境下依然能使用 AI 能力

本地部署大模型,本质上需要两样东西:模型引擎(加载运行模型)和用户界面(人机交互)。理解这个架构,后续选择工具就清晰了。

二、认识 DeepSeek 模型家族

DeepSeek 提供了从 1.5B 到 671B 的完整模型谱系,主要分为:

2.1 蒸馏版(推荐日常使用)

基于 Qwen 和 Llama 等开源模型微调,性能接近完整版但硬件门槛大幅降低:

模型 参数量 显存需求 适用场景
deepseek-r1:1.5b 1.5B ~2 GB 低配硬件、快速原型
deepseek-r1:7b 7B ~5 GB 日常对话、代码辅助
deepseek-r1:14b 14B ~10 GB 复杂推理、数学计算
deepseek-r1:32b 32B ~22 GB 专业研究、高质量生成
deepseek-r1:70b 70B ~45 GB 企业级应用、顶级性能

2.2 量化版(显存不够时的救星)

通过 4-bit 量化(Q4_K_M),显存需求可降至原来的 60%-70%,精度略有下降但性价比极高。例如 32B 模型经量化后,显存从 22GB 降至约 16GB,一张 RTX 3090 就能跑起来。

2.3 硬件选择经验法则

一个简单公式帮你快速判断:

无量化:显存(GB) ≈ 参数量(B) × 2 4-bit 量化:显存(GB) ≈ 参数量(B) × 1

实测数据:Qwen1.5-110B 在无量化时占用 215GB 显存,8-bit 量化后 113GB,4-bit 量化后仅 62GB。

2.4 硬件配置推荐表

模型版本 推荐 Mac 配置 推荐 Windows/Linux 配置
1.5B M2/M3 MacBook Air (8GB+) GTX 1650 4GB (16GB RAM)
7B M2/M3/M4 MacBook Pro (16GB+) RTX 3060 8GB (16GB RAM)
14B M2/M3/M4 Pro MacBook Pro (32GB+) RTX 3080 10GB (32GB RAM)
32B M2 Max/Ultra Mac Studio RTX 3090 24GB (64GB RAM)
70B M2 Ultra Mac Studio A100 40GB (128GB RAM)

三、部署工具全景图

根据技术栈和使用场景,工具分为三类:

3.1 引擎层:负责模型加载与推理

Ollama — 最流行的轻量级选择

  • 命令行驱动,像 Docker 一样管理模型

  • 一条命令即可下载运行:ollama run deepseek-r1:7b

  • 支持 macOS / Windows / Linux,也支持 Docker 部署

  • 默认提供 API 服务(localhost:11434),可被其他 UI 工具调用

LM Studio — 一站式图形化方案

  • 集成模型引擎 + 图形界面,开箱即用

  • 内置模型浏览器,直接从 Hugging Face 下载

  • 支持加载本地 GGUF 模型文件

  • 开启开发者模式后可提供 API 端点

3.2 界面层:负责人机交互

工具 特点 适用场景
Cherry Studio Windows 平台最友好,配置简单 新手入门
Chatbox 轻量级 ChatGPT 风格界面 日常对话
AnythingLLM 专注知识库集成 企业私有问答

3.3 终端原生方案:DeepSeek TUI

2026 年的新选择,直接在终端中与 DeepSeek V4 系列模型交互:

  • 核心特性:读写文件、执行 Shell、管理 Git、搜索网页、调度子智能体

  • 100 万 Token 超长上下文,16 路并行子任务

  • 三种模式:Plan(先规划后执行)、Agent(逐步审批)、YOLO(全自动)

  • 成本极低:典型 100K Token 编程会话约 $0.04

3.4 推荐组合方案

用户类型 推荐方案
新手入门 LM Studio(一体化)
开发者日常 Ollama + Chatbox
企业知识库 Ollama + AnythingLLM
终端爱好者 DeepSeek TUI
涉密离线环境 Ollama(离线导入 GGUF)

四、实战:三种部署路径详解

路径一:Ollama + Chatbox(最通用)

Step 1:安装 Ollama
# macOS / Windows:前往 https://ollama.com/download 下载安装包
​
# Linux 一键安装:
curl -fsSL https://ollama.com/install.sh | sh
​
# 验证安装
ollama -v
​
# 检查服务状态
systemctl status ollama
​
# 浏览器访问 http://localhost:11434/ ,出现 "Ollama is running" 即成功
Step 2:下载并运行模型
# 联网环境:自动下载并运行
ollama run deepseek-r1:7b
​
# 查看已下载的模型
ollama list
​
# 查看正在运行的模型
ollama ps
Step 3:离线环境部署

在联网机器上准备模型文件:

# 1. 导出 Modelfile
ollama show deepseek-r1:7b --modelfile > Modelfile
​
# 2. 模型文件位于以下目录,找到最大的文件即为 GGUF 模型
# Windows: C:\Users\Administrator\.ollama\models\blobs
# macOS:   ~/.ollama/models/blobs
# Linux:   /usr/share/ollama/.ollama/models/blobs
​
# 3. 将 GGUF 文件和 Modelfile 拷贝到离线机器
​
# 4. 修改 Modelfile 中的 FROM 路径指向本地 GGUF 文件
# FROM ./deepseek-r1-7b.gguf
​
# 5. 导入模型
ollama create my-deepseek -f Modelfile
​
# 6. 验证
ollama list
ollama run my-deepseek
Step 4:连接 Chatbox
  1. 下载 Chatbox:https://chatboxai.app/zh

  2. 打开左下角设置图标

  3. 选择连接 Ollama

  4. 选择已加载的模型

  5. 保存后即可开始对话

Ollama 常用命令速查
命令 功能
ollama serve 启动 Ollama 服务
ollama run <model> 运行模型(自动下载)
ollama pull <model> 仅下载模型
ollama list 列出已下载模型
ollama ps 列出正在运行的模型
ollama rm <model> 删除模型
ollama create <name> -f Modelfile 从 Modelfile 创建模型
ollama show <model> --modelfile 查看模型的 Modelfile

路径二:DeepSeek TUI(开发者首选)

安装(三种方式任选)
# 方式一:npm 安装(新手推荐,全平台通用)
npm install -g deepseek-tui
deepseek --version
​
# 方式二:Homebrew 安装(macOS 独占)
brew tap Hmbown/deepseek-tui
brew install deepseek-tui
​
# 方式三:Cargo 安装(Rust 开发者推荐)
cargo install deepseek-tui-cli --locked
cargo install deepseek-tui --locked
​
# 方式四:预编译二进制(离线可用)
# 从 GitHub Releases 下载对应平台版本
# https://github.com/Hmbown/DeepSeek-TUI/releases
# 解压后添加到系统 PATH
获取 DeepSeek API Key
  1. 访问 https://platform.deepseek.com/ 注册登录

  2. 完成实名认证

  3. 进入「API Key 管理」→「创建新的 API Key」

  4. 立即复制保存(仅显示一次)

配置 API Key
# 方式一:首次启动自动提示配置
deepseek-tui
​
# 方式二:手动创建配置文件
mkdir -p ~/.deepseek

创建 ~/.deepseek/config.toml

# ============== 必填项 ==============
api_key = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
​
# ============== 模型设置 ==============
model = "deepseek-chat"
# 可选: deepseek-chat(通用对话)、deepseek-reasoner(深度推理)
# 也支持 deepseek-v4-pro / deepseek-v4-flash
​
# ============== 工具与权限 ==============
allow_shell = true           # 是否允许执行 Shell 命令
approval_level = 3           # 审批级别: 1-5(1=最严格,5=最宽松)
enable_web_search = true     # 是否启用网页搜索
​
# ============== 界面设置 ==============
theme = "deepseek-dark"      # 终端主题
language = "zh-Hans"         # 界面语言
​
# ============== 性能设置 ==============
max_subagents = 8            # 最大并行子智能体数量(1-16)
max_context_length = 1000000 # 最大上下文长度(Token)

或通过环境变量设置:

export DEEPSEEK_API_KEY="sk-your-key-here"
验证配置
deepseek doctor
启动与使用
# 启动 TUI 界面
deepseek-tui
​
# 以 YOLO 模式启动(自动批准所有操作,谨慎使用)
deepseek-tui --yolo
​
# 一次性提问模式(不进入 TUI)
deepseek -p "解释这个代码库的架构"
三种交互模式

Tab 键循环切换:

模式 文件写入 Shell 执行 说明
Plan 需审批 需审批 先规划方案,经审阅后再动手
Agent 自动批准 需审批 逐步使用工具,敏感操作需审批
YOLO 自动批准 自动批准 完全自动执行,仅在可信工作区使用
TUI 快捷键速查
快捷键 功能
Tab 切换工作模式(Plan → Agent → YOLO)
Shift + Tab 反向切换 / 调整推理强度
F1 打开帮助面板
Esc 取消正在运行的请求
Ctrl + K 命令面板
/config 交互式配置管理
/models 查看可用模型列表
/help 显示应用内命令列表

路径三:API 调用(集成到自有应用)

安装 SDK
pip install openai
非流式输出(适合数据分析、结构化提取)
from openai import OpenAI
​
client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.deepseek.com"
)
​
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一名AI助手"},
        {"role": "user", "content": "请简要介绍一下你自己"},
    ],
    stream=False,
)
​
print(response.choices[0].message.content)
流式输出(适合对话、写作,体验更好)
from openai import OpenAI
​
client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.deepseek.com"
)
​
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一名AI助手"},
        {"role": "user", "content": "明月几时有"},
    ],
    stream=True,
)
​
for chunk in response:
    content = chunk.choices[0].delta.content
    if content:
        print(content, end="", flush=True)
流式 vs 非流式选择指南
对比项 流式输出 非流式输出
返回方式 边生成边返回 全部生成后一次返回
响应速度 慢(尤其是长文本)
使用体验 打字式,更自然 需等待
编程复杂度 稍复杂(需拼接) 简单
适用场景 对话生成、直播问答 简短回复、结构化处理
代码封装为类
from openai import OpenAI
​
class DeepseekAPI:
    def __init__(self, api_key):
        self.client = OpenAI(
            api_key=api_key,
            base_url="https://api.deepseek.com"
        )
​
    def chat(self, messages, stream=False):
        response = self.client.chat.completions.create(
            model="deepseek-chat",
            messages=messages,
            stream=stream,
        )
        if stream:
            for chunk in response:
                content = chunk.choices[0].delta.content
                if content:
                    yield content
        else:
            return response.choices[0].message.content
​
​
# 使用示例
api = DeepseekAPI("sk-your-key")
​
# 非流式
result = api.chat([{"role": "user", "content": "你好"}])
print(result)
​
# 流式
for token in api.chat([{"role": "user", "content": "你好"}], stream=True):
    print(token, end="")

五、模型格式与下载来源

5.1 常见格式对比

格式 特点 适用场景
GGUF 体积小、加载快、CPU/GPU 通用 Ollama、LM Studio 本地部署首选
Safetensors 安全、速度快、防恶意注入 训练、微调场景
PyTorch (.pth) 完整模型状态 研究、二次开发
ONNX 跨框架兼容 多平台部署

5.2 下载来源

平台 地址 特点
Hugging Face Hub huggingface.co 资源最全、更新最快,国际主流
ModelScope modelscope.cn 国内平台,下载速度快,无网络障碍
Ollama Library ollama.com/library Ollama 官方模型库,一键下载
DeepSeek GitHub github.com/deepseek-ai 官方源码和权重

5.3 PyTorch/Safetensors 转 GGUF

Ollama 不直接支持 PyTorch 或 Safetensors 格式,需要通过 llama.cpp 转换:

# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
​
# 安装依赖
pip install -r requirements.txt
​
# 转换为 GGUF 格式
python convert.py /path/to/model/ --outtype f16 --outfile ./model-fp16.gguf
​
# 可选:量化为 4-bit
./quantize ./model-fp16.gguf ./model-q4_K_M.gguf q4_K_M

六、Docker 部署方案

适合无 GPU 的轻量服务器或需要隔离部署的场景:

# 无 GPU 环境
docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  --restart always \
  ollama/ollama
​
# 有 NVIDIA GPU
docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama
​
# 进入容器运行模型
docker exec -it ollama ollama run deepseek-r1:7b
​
# 或者不进入容器直接执行
docker exec -it ollama ollama run qwen2:0.5b

七、避坑指南

7.1 Windows 平台

问题 原因 解决方案
deepseek 命令未识别 未添加 PATH 将安装目录添加到系统 PATH,重启终端
PowerShell 脚本无法执行 执行策略限制 管理员运行 Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
Cargo 编译报错 缺少构建工具 安装 Visual Studio Build Tools 2022,勾选「C++ 生成工具」
npm 全局安装权限不足 用户权限问题 使用管理员权限打开 PowerShell 后重新执行

7.2 macOS 平台

问题 原因 解决方案
「无法验证开发者」 Gatekeeper 安全机制 「系统设置」→「隐私与安全性」→ 点击「仍要打开」
命令路径不生效 Shell 未加载 npm 路径 执行 export PATH="$HOME/.npm/bin:$PATH" 并加入 ~/.zshrc
Apple Silicon 兼容性问题 下载了 x86 版本 确保下载 aarch64-apple-darwin 版本
Terminal 显示异常 原生终端对 TUI 支持有限 推荐使用 iTerm2

7.3 通用问题

问题 解决方案
API Key 无效 确认从 platform.deepseek.com 获取有效 Key,开头为 sk-
API 调用超时 检查网络连接,国内用户可用备用 endpoint
Token 消耗过快 改用 deepseek-v4-flash($0.14/百万输入 Token)
显存不足 (OOM) 选用量化版模型,或降低参数量
模型响应慢 确认是否在用 GPU 推理,CPU 推理会慢很多
LM Studio 识别不到模型 模型需放在二级子目录下,如 models/目录1/目录2/model.gguf

八、总结与建议

核心要点

  1. 不要盲目追求大模型。7B 模型在日常对话和代码辅助上已经够用,32B 以上才真正拉开差距。先用小模型跑通流程,再根据需求升级。

  2. 量化是普通人的福音。4-bit 量化让原本需要专业显卡才能运行的模型,在消费级硬件上就能跑起来,精度损失远比想象中小。

  3. Ollama 的生态优势越来越明显。它的命令行哲学和 Docker 式管理深受开发者喜爱,配合 Chatbox、Open WebUI 等前端,体验已经不输商业产品。

  4. DeepSeek TUI 代表了一个趋势 —— AI 编程助手正在从 IDE 插件走向终端原生。对于习惯终端工作流的开发者,这种"不离开终端"的体验非常高效。

  5. 离线部署的核心难点不是技术,而是模型文件的获取和传输。提前在联网环境准备好 GGUF 文件,是离线部署成功的关键。

快速决策树

你的需求是什么?
│
├─ 日常对话/代码辅助 → Ollama + Chatbox(7B 模型)
│
├─ 专业研究/高质量生成 → Ollama + LM Studio(32B 模型)
│
├─ 终端编程工作流 → DeepSeek TUI
│
├─ 企业知识库问答 → Ollama + AnythingLLM
│
├─ 集成到自有应用 → DeepSeek API 调用
│
└─ 离线/涉密环境 → 联网下载 GGUF → U 盘拷贝 → 离线 Ollama 导入

参考来源

性能接近完整版但硬件门槛大幅降低:

模型 参数量 显存需求 适用场景
deepseek-r1:1.5b 1.5B ~2 GB 低配硬件、快速原型
deepseek-r1:7b 7B ~5 GB 日常对话、代码辅助
deepseek-r1:14b 14B ~10 GB 复杂推理、数学计算
deepseek-r1:32b 32B ~22 GB 专业研究、高质量生成
deepseek-r1:70b 70B ~45 GB 企业级应用、顶级性能

2.2 量化版(显存不够时的救星)

通过 4-bit 量化(Q4_K_M),显存需求可降至原来的 60%-70%,精度略有下降但性价比极高。例如 32B 模型经量化后,显存从 22GB 降至约 16GB,一张 RTX 3090 就能跑起来。

2.3 硬件选择经验法则

一个简单公式帮你快速判断:

无量化:显存(GB) ≈ 参数量(B) × 2 4-bit 量化:显存(GB) ≈ 参数量(B) × 1

实测数据:Qwen1.5-110B 在无量化时占用 215GB 显存,8-bit 量化后 113GB,4-bit 量化后仅 62GB。

2.4 硬件配置推荐表

模型版本 推荐 Mac 配置 推荐 Windows/Linux 配置
1.5B M2/M3 MacBook Air (8GB+) GTX 1650 4GB (16GB RAM)
7B M2/M3/M4 MacBook Pro (16GB+) RTX 3060 8GB (16GB RAM)
14B M2/M3/M4 Pro MacBook Pro (32GB+) RTX 3080 10GB (32GB RAM)
32B M2 Max/Ultra Mac Studio RTX 3090 24GB (64GB RAM)
70B M2 Ultra Mac Studio A100 40GB (128GB RAM)

三、其他主流开源模型速览

本文部署工具(Ollama、LM Studio、DeepSeek TUI 等)同样适用于以下所有模型。学会 DeepSeek 的部署,其他模型只需换一条命令。

3.0 为什么还要了解其他模型?

DeepSeek 虽强,但不同场景下其他模型各有优势:

模型 核心优势 最佳场景
Qwen(通义千问) 中文理解力顶级,阿里生态完善 中文内容创作、客服、教育
Llama 3(Meta) 社区生态最繁荣,微调资源最多 通用 NLP、二次开发、学术研究
Mistral 效率极高,小模型性能惊人 资源受限环境、边缘设备部署
Gemma 2(Google) 基于 Gemini 技术,轻量高效 快速原型、移动端、学习入门
Yi(零一万物) 超长上下文窗口(200K) 长文档分析、法律合同、论文阅读
Phi-3(微软) 3.8B 参数媲美 7B 级模型 超低配置机器、嵌入式场景
GLM/ChatGLM(智谱) 中文对话体验优秀,多模态支持 中文对话、多模态应用

3.1 Ollama 一键部署命令

以下所有命令在安装 Ollama 后即可直接运行,无需额外配置:

# ============ DeepSeek 系列 ============
ollama run deepseek-r1:7b          # DeepSeek R1 推理版(7B)
ollama run deepseek-r1:14b         # DeepSeek R1 推理版(14B)
ollama run deepseek-coder-v2       # DeepSeek 代码专用版
​
# ============ Qwen 系列 ============
ollama run qwen2.5:7b              # 通义千问 2.5(7B),中文最强之一
ollama run qwen2.5:14b             # 通义千问 2.5(14B)
ollama run qwen2.5:72b             # 通义千问 2.5(72B),旗舰级
ollama run qwen2.5-coder:7b        # Qwen 代码专用版
​
# ============ Llama 系列 ============
ollama run llama3.1:8b             # Llama 3.1(8B),Meta 最新开源
ollama run llama3.1:70b            # Llama 3.1(70B)
ollama run llama3.2:3b             # Llama 3.2(3B),超轻量级
ollama run llama3.2-vision:11b     # Llama 多模态版(图文理解)
​
# ============ Mistral 系列 ============
ollama run mistral:7b              # Mistral 7B,效率之王
ollama run mixtral:8x7b            # Mixtral MoE 架构,性能强劲
​
# ============ Gemma 系列 ============
ollama run gemma2:2b               # Gemma 2(2B),极致轻量
ollama run gemma2:9b               # Gemma 2(9B),性价比之选
​
# ============ 其他热门模型 ============
ollama run phi3:3.8b               # 微软 Phi-3,小身材大能量
ollama run yi:6b                   # 零一万物 Yi(6B)
ollama run glm4:9b                 # 智谱 GLM-4(9B)
ollama run codegemma:7b            # Google 代码专用版
ollama run codellama:13b           # Meta 代码专用版

3.2 模型选择决策表

根据你的硬件配置快速选择:

显存/内存 推荐模型 一句话理由
4GB 以下 gemma2:2b, phi3:3.8b, qwen2.5:1.5b 能跑就行,体验大模型交互
4-8GB deepseek-r1:7b, qwen2.5:7b, llama3.1:8b 主力机型,日常够用
8-16GB qwen2.5:14b, deepseek-r1:14b, mixtral:8x7b 专业级体验
16-24GB qwen2.5:32b, deepseek-r1:32b 准旗舰级
24GB+ qwen2.5:72b, llama3.1:70b, deepseek-r1:70b 旗舰级,媲美商业 API

3.3 中文场景模型推荐

如果你主要处理中文任务,优先考虑:

  1. Qwen 2.5 — 中文理解和生成能力公认最强,阿里持续优化

  2. DeepSeek R1 — 中文能力出色,且推理能力(数学/逻辑)领先

  3. GLM-4 / ChatGLM — 智谱出品,中文对话体验自然流畅

  4. Yi — 长文本处理能力突出,适合中文长文档场景

小贴士:同一硬件上运行不同模型,实际效果可能差异很大。建议多试几个,找到最适合自己任务的模型。

四、部署工具全景图

根据技术栈和使用场景,工具分为三类:

4.1 引擎层:负责模型加载与推理

Ollama — 最流行的轻量级选择

  • 命令行驱动,像 Docker 一样管理模型

  • 一条命令即可下载运行:ollama run deepseek-r1:7b

  • 支持 100+ 模型:DeepSeek、Qwen、Llama、Mistral、Gemma、Phi、Yi、GLM 全覆盖

  • 支持 macOS / Windows / Linux,也支持 Docker 部署

  • 默认提供 API 服务(localhost:11434),可被其他 UI 工具调用

LM Studio — 一站式图形化方案

  • 集成模型引擎 + 图形界面,开箱即用

  • 内置模型浏览器,支持搜索和下载所有主流模型(DeepSeek / Qwen / Llama / Mistral / Gemma 等)

  • 支持加载本地 GGUF 模型文件

  • 开启开发者模式后可提供 API 端点

4.2 界面层:负责人机交互

工具 特点 适用场景
Cherry Studio Windows 平台最友好,配置简单 新手入门
Chatbox 轻量级 ChatGPT 风格界面 日常对话
AnythingLLM 专注知识库集成 企业私有问答

4.3 终端原生方案:DeepSeek TUI

2026 年的新选择,直接在终端中与 DeepSeek V4 系列模型交互:

  • 核心特性:读写文件、执行 Shell、管理 Git、搜索网页、调度子智能体

  • 100 万 Token 超长上下文,16 路并行子任务

  • 三种模式:Plan(先规划后执行)、Agent(逐步审批)、YOLO(全自动)

  • 成本极低:典型 100K Token 编程会话约 $0.04

4.4 推荐组合方案

用户类型 推荐方案
新手入门 LM Studio(一体化)
开发者日常 Ollama + Chatbox
企业知识库 Ollama + AnythingLLM
终端爱好者 DeepSeek TUI
涉密离线环境 Ollama(离线导入 GGUF)

五、实战:三种部署路径详解

路径一:Ollama + Chatbox(最通用)

Step 1:安装 Ollama
# macOS / Windows:前往 https://ollama.com/download 下载安装包
​
# Linux 一键安装:
curl -fsSL https://ollama.com/install.sh | sh
​
# 验证安装
ollama -v
​
# 检查服务状态
systemctl status ollama
​
# 浏览器访问 http://localhost:11434/ ,出现 "Ollama is running" 即成功
Step 2:下载并运行模型
# 联网环境:自动下载并运行
ollama run deepseek-r1:7b
​
# 查看已下载的模型
ollama list
​
# 查看正在运行的模型
ollama ps
Step 3:离线环境部署

在联网机器上准备模型文件:

# 1. 导出 Modelfile
ollama show deepseek-r1:7b --modelfile > Modelfile
​
# 2. 模型文件位于以下目录,找到最大的文件即为 GGUF 模型
# Windows: C:\Users\Administrator\.ollama\models\blobs
# macOS:   ~/.ollama/models/blobs
# Linux:   /usr/share/ollama/.ollama/models/blobs
​
# 3. 将 GGUF 文件和 Modelfile 拷贝到离线机器
​
# 4. 修改 Modelfile 中的 FROM 路径指向本地 GGUF 文件
# FROM ./deepseek-r1-7b.gguf
​
# 5. 导入模型
ollama create my-deepseek -f Modelfile
​
# 6. 验证
ollama list
ollama run my-deepseek
Step 4:连接 Chatbox
  1. 下载 Chatbox:https://chatboxai.app/zh

  2. 打开左下角设置图标

  3. 选择连接 Ollama

  4. 选择已加载的模型

  5. 保存后即可开始对话

Ollama 常用命令速查
命令 功能
ollama serve 启动 Ollama 服务
ollama run <model> 运行模型(自动下载)
ollama pull <model> 仅下载模型
ollama list 列出已下载模型
ollama ps 列出正在运行的模型
ollama rm <model> 删除模型
ollama create <name> -f Modelfile 从 Modelfile 创建模型
ollama show <model> --modelfile 查看模型的 Modelfile

路径二:DeepSeek TUI(开发者首选)

安装(三种方式任选)
# 方式一:npm 安装(新手推荐,全平台通用)
npm install -g deepseek-tui
deepseek --version
​
# 方式二:Homebrew 安装(macOS 独占)
brew tap Hmbown/deepseek-tui
brew install deepseek-tui
​
# 方式三:Cargo 安装(Rust 开发者推荐)
cargo install deepseek-tui-cli --locked
cargo install deepseek-tui --locked
​
# 方式四:预编译二进制(离线可用)
# 从 GitHub Releases 下载对应平台版本
# https://github.com/Hmbown/DeepSeek-TUI/releases
# 解压后添加到系统 PATH
获取 DeepSeek API Key
  1. 访问 https://platform.deepseek.com/ 注册登录

  2. 完成实名认证

  3. 进入「API Key 管理」→「创建新的 API Key」

  4. 立即复制保存(仅显示一次)

配置 API Key
# 方式一:首次启动自动提示配置
deepseek-tui
​
# 方式二:手动创建配置文件
mkdir -p ~/.deepseek

创建 ~/.deepseek/config.toml

# ============== 必填项 ==============
api_key = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
​
# ============== 模型设置 ==============
model = "deepseek-chat"
# 可选: deepseek-chat(通用对话)、deepseek-reasoner(深度推理)
# 也支持 deepseek-v4-pro / deepseek-v4-flash
​
# ============== 工具与权限 ==============
allow_shell = true           # 是否允许执行 Shell 命令
approval_level = 3           # 审批级别: 1-5(1=最严格,5=最宽松)
enable_web_search = true     # 是否启用网页搜索
​
# ============== 界面设置 ==============
theme = "deepseek-dark"      # 终端主题
language = "zh-Hans"         # 界面语言
​
# ============== 性能设置 ==============
max_subagents = 8            # 最大并行子智能体数量(1-16)
max_context_length = 1000000 # 最大上下文长度(Token)

或通过环境变量设置:

export DEEPSEEK_API_KEY="sk-your-key-here"
验证配置
deepseek doctor
启动与使用
# 启动 TUI 界面
deepseek-tui
​
# 以 YOLO 模式启动(自动批准所有操作,谨慎使用)
deepseek-tui --yolo
​
# 一次性提问模式(不进入 TUI)
deepseek -p "解释这个代码库的架构"
三种交互模式

Tab 键循环切换:

模式 文件写入 Shell 执行 说明
Plan 需审批 需审批 先规划方案,经审阅后再动手
Agent 自动批准 需审批 逐步使用工具,敏感操作需审批
YOLO 自动批准 自动批准 完全自动执行,仅在可信工作区使用
TUI 快捷键速查
快捷键 功能
Tab 切换工作模式(Plan → Agent → YOLO)
Shift + Tab 反向切换 / 调整推理强度
F1 打开帮助面板
Esc 取消正在运行的请求
Ctrl + K 命令面板
/config 交互式配置管理
/models 查看可用模型列表
/help 显示应用内命令列表

路径三:API 调用(集成到自有应用)

安装 SDK
pip install openai
非流式输出(适合数据分析、结构化提取)
from openai import OpenAI
​
client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.deepseek.com"
)
​
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一名AI助手"},
        {"role": "user", "content": "请简要介绍一下你自己"},
    ],
    stream=False,
)
​
print(response.choices[0].message.content)
流式输出(适合对话、写作,体验更好)
from openai import OpenAI
​
client = OpenAI(
    api_key="sk-your-key",
    base_url="https://api.deepseek.com"
)
​
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "你是一名AI助手"},
        {"role": "user", "content": "明月几时有"},
    ],
    stream=True,
)
​
for chunk in response:
    content = chunk.choices[0].delta.content
    if content:
        print(content, end="", flush=True)
流式 vs 非流式选择指南
对比项 流式输出 非流式输出
返回方式 边生成边返回 全部生成后一次返回
响应速度 慢(尤其是长文本)
使用体验 打字式,更自然 需等待
编程复杂度 稍复杂(需拼接) 简单
适用场景 对话生成、直播问答 简短回复、结构化处理
代码封装为类
from openai import OpenAI
​
class DeepseekAPI:
    def __init__(self, api_key):
        self.client = OpenAI(
            api_key=api_key,
            base_url="https://api.deepseek.com"
        )
​
    def chat(self, messages, stream=False):
        response = self.client.chat.completions.create(
            model="deepseek-chat",
            messages=messages,
            stream=stream,
        )
        if stream:
            for chunk in response:
                content = chunk.choices[0].delta.content
                if content:
                    yield content
        else:
            return response.choices[0].message.content
​
​
# 使用示例
api = DeepseekAPI("sk-your-key")
​
# 非流式
result = api.chat([{"role": "user", "content": "你好"}])
print(result)
​
# 流式
for token in api.chat([{"role": "user", "content": "你好"}], stream=True):
    print(token, end="")

六、模型格式与下载来源

6.1 常见格式对比

格式 特点 适用场景
GGUF 体积小、加载快、CPU/GPU 通用 Ollama、LM Studio 本地部署首选
Safetensors 安全、速度快、防恶意注入 训练、微调场景
PyTorch (.pth) 完整模型状态 研究、二次开发
ONNX 跨框架兼容 多平台部署

6.2 下载来源

平台 地址 特点
Hugging Face Hub huggingface.co 资源最全、更新最快,国际主流
ModelScope modelscope.cn 国内平台,下载速度快,无网络障碍
Ollama Library ollama.com/library Ollama 官方模型库,一键下载
DeepSeek GitHub github.com/deepseek-ai 官方源码和权重

6.3 PyTorch/Safetensors 转 GGUF

Ollama 不直接支持 PyTorch 或 Safetensors 格式,需要通过 llama.cpp 转换:

# 克隆 llama.cpp
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
​
# 安装依赖
pip install -r requirements.txt
​
# 转换为 GGUF 格式
python convert.py /path/to/model/ --outtype f16 --outfile ./model-fp16.gguf
​
# 可选:量化为 4-bit
./quantize ./model-fp16.gguf ./model-q4_K_M.gguf q4_K_M

七、Docker 部署方案

适合无 GPU 的轻量服务器或需要隔离部署的场景:

# 无 GPU 环境
docker run -d \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  --restart always \
  ollama/ollama
​
# 有 NVIDIA GPU
docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama
​
# 进入容器运行模型
docker exec -it ollama ollama run deepseek-r1:7b
​
# 或者不进入容器直接执行
docker exec -it ollama ollama run qwen2:0.5b

八、避坑指南

8.1 Windows 平台

问题 原因 解决方案
deepseek 命令未识别 未添加 PATH 将安装目录添加到系统 PATH,重启终端
PowerShell 脚本无法执行 执行策略限制 管理员运行 Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
Cargo 编译报错 缺少构建工具 安装 Visual Studio Build Tools 2022,勾选「C++ 生成工具」
npm 全局安装权限不足 用户权限问题 使用管理员权限打开 PowerShell 后重新执行

8.2 macOS 平台

问题 原因 解决方案
「无法验证开发者」 Gatekeeper 安全机制 「系统设置」→「隐私与安全性」→ 点击「仍要打开」
命令路径不生效 Shell 未加载 npm 路径 执行 export PATH="$HOME/.npm/bin:$PATH" 并加入 ~/.zshrc
Apple Silicon 兼容性问题 下载了 x86 版本 确保下载 aarch64-apple-darwin 版本
Terminal 显示异常 原生终端对 TUI 支持有限 推荐使用 iTerm2

8.3 通用问题

问题 解决方案
API Key 无效 确认从 platform.deepseek.com 获取有效 Key,开头为 sk-
API 调用超时 检查网络连接,国内用户可用备用 endpoint
Token 消耗过快 改用 deepseek-v4-flash($0.14/百万输入 Token)
显存不足 (OOM) 选用量化版模型,或降低参数量
模型响应慢 确认是否在用 GPU 推理,CPU 推理会慢很多
LM Studio 识别不到模型 模型需放在二级子目录下,如 models/目录1/目录2/model.gguf

九、总结与建议

核心要点

  1. 不要盲目追求大模型。7B 模型在日常对话和代码辅助上已经够用,32B 以上才真正拉开差距。先用小模型跑通流程,再根据需求升级。

  2. 量化是普通人的福音。4-bit 量化让原本需要专业显卡才能运行的模型,在消费级硬件上就能跑起来,精度损失远比想象中小。

  3. 一套工具链通吃所有模型。Ollama 支持 100+ 开源模型,DeepSeek、Qwen、Llama、Mistral、Gemma 只是换一条命令的事。学会一个工具,模型随便切换。

  4. 中文场景首选 Qwen 和 DeepSeek。两者在中文理解和生成上各有千秋,建议都试一试,找到最适合自己任务风格的那个。

  5. Ollama 的生态优势越来越明显。它的命令行哲学和 Docker 式管理深受开发者喜爱,配合 Chatbox、Open WebUI 等前端,体验已经不输商业产品。

  6. DeepSeek TUI 代表了一个趋势 —— AI 编程助手正在从 IDE 插件走向终端原生。对于习惯终端工作流的开发者,这种"不离开终端"的体验非常高效。

  7. 离线部署的核心难点不是技术,而是模型文件的获取和传输。提前在联网环境准备好 GGUF 文件,是离线部署成功的关键。

快速决策树

你的需求是什么?
│
├─ 日常对话/代码辅助 → Ollama + Chatbox
│   └─ 英文为主:Llama 3.1 8B / Mistral 7B
│   └─ 中文为主:Qwen 2.5 7B / DeepSeek R1 7B
│
├─ 专业研究/高质量生成 → Ollama + LM Studio(32B+ 模型)
│   └─ 推理能力强:DeepSeek R1 32B
│   └─ 中文理解强:Qwen 2.5 32B
│
├─ 终端编程工作流 → DeepSeek TUI / Ollama + codegemma / codellama
│
├─ 超低配置机器(<4GB) → gemma2:2b / phi3:3.8b
│
├─ 长文档分析 → Yi / Qwen 2.5(200K 上下文)
│
├─ 企业知识库问答 → Ollama + AnythingLLM
│
├─ 集成到自有应用 → DeepSeek / Qwen API 调用
│
└─ 离线/涉密环境 → 联网下载 GGUF → U 盘拷贝 → 离线 Ollama 导入

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐