Dify中的本地大模型与云端大模型部署

2301_79964758

674人浏览 · 2026-04-15 17:05:25

2301_79964758 · 2026-04-15 17:05:25 发布

文章目录

一、Ollama部署本地大模型

1.1、Ollama介绍

Ollama是一个用于在本地运行大语言模型（LLM）的工具与平台，旨在让开发者和个人在自己的机器或私有服务器上安全、低延迟地部署和使用大模型。下面是关键点总结：

核心功能
- 在本地或私有基础设施上下载、托管并运行 LLM（例如开源模型），避免把数据发送到第三方云服务。
- 提供模型管理（安装、升级、版本控制）和运行时接口（API / CLI），便于集成到应用中。
- 支持推理（inference）、对话（chat）和嵌入向量等常见 LLM 功能。
优点
- 隐私与数据控制：数据保留在本地，适合对隐私或合规有高要求的场景。
- 低延迟：本地推理减少网络往返，响应更快。
- 成本可控：避免持续云推理费用(token),成本取决于硬件与维护。
限制与要求
- 需要较强的本地硬件（GPU/显存）用于较大模型的推理；轻量或量化模型可在较弱设备上运行。
- 模型、加速库（如 CUDA）、依赖环境配置可能较复杂。
- 功能和模型生态比不上大型云厂商托管的服务（可通过社区模型与工具弥补）。

1.2、Ollama的安装

下载网址：https://ollama.com/download

Ollama支持macOS，Linux和Windows系统。（下面以在Windows上安装为例）

默认安装即可。

1.3、下载模型

打开Ollama，更改配置
下载模型（以qwen2.5为例）

等待下载完即可。

1.4、Ollama核心命令

查看ollama的版本
```
ollama -v
```
查看本地有那些模型
```
ollama list
```
下载一个模型
```
ollama pull qwen2.5
```
直接进行聊天
```
ollama run qwen2:5
```
- 直接打字提问
- 输入 /bye 退出
- 输入 /list 看模型
- 输入 /help 看帮助
查看正在运行的模型
```
ollama ps
```
停止运行
```
ollama stop qwen2.5
```
删除不用的模型
```
ollama rm qwen2.5
```

1.5、将本地大模型接入Dify

进行插件功能配置

给Dify开启 插件功能 ，让 Dify 能安装、使用各种插件（包括连接本地Ollama大模型）。

进入之前下载的Dify文件夹打开 docker 文件夹，以记事本的形式打开docker-compose.yaml 文件（在修改之前先将这个文件复制一份到桌面，以免修改错误）

plugin_daemon:
    image: langgenius/dify-plugin-daemon:0.5.4-local
    restart: always
    networks:
      - default
    environment:
      SERVER_PORT: 5003
      SERVER_KEY: lsk-123456
      DIFY_INNER_API_URL: http://api:5001
      DIFY_INNER_API_KEY: lsk-123456
      DB_USERNAME: postgres
      DB_PASSWORD: difyai123456
      DB_HOST: db_postgres
      DB_PORT: 5432
      DB_DATABASE: dify
      REDIS_HOST: redis
      REDIS_PORT: 6379
      REDIS_PASSWORD: difyai123456
      STORAGE_TYPE: local
      STORAGE_LOCAL_PATH: /app/storage
      PLUGIN_PYTHON_ENV_INIT_TIMEOUT: 600
      PLUGIN_MAX_EXECUTION_TIMEOUT: 2400
      PIP_MIRROR_URL: https://pypi.tuna.tsinghua.edu.cn/simple
      UV_NO_REFLINK: 1
      PLUGIN_REMOTE_INSTALLING_HOST: http://plugin_daemon:5003
      PLUGIN_REMOTE_INSTALLING_PORT: 5003
      PLUGIN_WORKING_PATH: /app/storage/cwd
    ports:
      - "5003:5003"
    volumes:
      - ./storage:/app/storage
    depends_on:
      - api
      - db_postgres
      - redis

然后打开 .env 文件（以记事本形式）

在末尾加入

PLUGIN_DAEMON_URL=http://plugin_daemon:5003
PLUGIN_DAEMON_KEY=lsk-123456
PLUGIN_DAEMON_ENABLED=true

下载Ollama插件

打开Docker 启动Dify后，用浏览器打开dify后台页面

下载Ollama插件

可能会出现下载失败的情况，多下载几次就行了

配置Ollama本地大模型

模型名称：填写在Ollama中下载的模型名称
模型类型：LLM（大语言模型，一般填这个）
基础URL：
- 同一机器Docker部署：http://host.docker.internal:11434
- 不同机器部署：http://x.x.x.x:11434 (x.x.x.x Ollama 所在电脑的局域网 IP)

测试本地模型

创建一个聊天助手

二、云端大模型API调用

2.1、什么是“云端大模型 API”

定义：通过云服务提供的大规模预训练模型（如对话/生成模型、文本理解、图像生成等）的远程调用接口。开发者无需训练或部署模型，只需通过 HTTP/gRPC 等方式发送输入并获取模型输出。
优势：
- 无需自行训练、维护底层基础设施
- 可按需扩展，低启动成本
- 快速集成到业务系统（客服、搜索、文档处理、生成内容等）
局限：
- 网络延迟与带宽依赖
- 成本随使用量增长
- 对敏感数据需注意隐私与合规