【香橙派 AI pro上手】部署大语言模型实战教程：香橙派 AI pro基于Ollama实战大模型部署

旧约Alatus

5599人浏览 · 2024-07-12 22:55:07

旧约Alatus · 2024-07-12 22:55:07 发布

引言

当今，人工智能技术日益成熟，大语言模型作为其重要组成部分，正以惊人的速度改变着我们的生活和工作方式。

今天也是很荣幸，博主得到平台的信任，有幸拿到了一块香橙派 AI pro，这块板子作为业界首款基于昇腾深度研发的AI开发板，其配备的 8/20TOPS澎湃算力是目前开发板市场中所具备的最大算力，那么今天我们就将探索如何利用香橙派 AIpro 平台，通过Ollama将大语言模型部署到本地。

一、香橙派与迅龙软件介绍

香橙派（Orange Pi）是一系列由深圳市迅龙软件有限公司。公司成立于2005年，作为全球领先的开源硬件和开源软件服务商，致力于让极客、创客、电子爱好者享用到优质而具有高性价比的科技产品，通过大规模的社会化协作去创建一个更加美好的信息化人类文明。

1.1 香橙派 AI pro 开发版

此次评测的是香橙派 AI pro 开发版，香橙派AI pro开发板是由香橙派联合华为推出的高性能AI开发板，它采用了昇腾AI技术路线，集成了4核64位处理器和AI处理器，支持高达8-12TOPS的AI算力。

该开发板配备了8GB/16GB LPDDR4X内存，并支持通过eMMC模块或M.2接口扩展存储空间。

香橙派AIpro还支持双4K高清输出，并提供了丰富的接口，包括两个HDMI输出、GPIO接口、Type-C电源接口、支持SATA/NVMe SSD的M.2插槽等，适用于多种AI应用场景。

如AI边缘计算、深度视觉学习、视频分析等。操作系统方面，香橙派AIpro支持Ubuntu和openEuler，以满足不同开发者的需求。

1.2 外观评价

这么强劲的一块开发板，笔者刚收到板子的心情非常激动的，这边随手拍拍给大家展示一下，不多不说香橙派这次外观上没得说，无论是包装还是内部做工都很专业很精致。

接上线开机完全体，应该是我拍照的问题，感觉图片看起来都好丑啊！！！

1.3 开发板的噪音、散热方面表现

作为一块为开发者而生的开发板，香橙派 AI pro在高负载下仍然做到了噪音和散热方面的平衡。

具有稳定的高负载处理能力，能够在长时间高负载的情况下保持稳定运行，不会因为负载过重而出现性能下降或自动重启的情况。
支持复杂任务的处理能力，基于强大的算力，它能够处理复杂的计算任务，如大型模型的训练或推理，而不会出现明显的延迟或卡顿。

噪音控制方面，开发板的散热模组选择了低噪音设计，通过采用有效的散热设计和静音风扇，以减少噪音。即使在高负载时，它的风扇也能保持较低的转速，从而降低噪音水平。
从而做到静音运行，在日常使用中，开发板的运行噪音足够低，不会干扰到周围的工作环境或人员。

而散热效果方面，这套高效的散热系统能够有效地将热量分散和排出，确保在长时间高负载运行时仍能保持适当的工作温度，并做到稳定的温度控制，即便在高负荷运作下，开发板的温度叶能够保持在安全范围内，不会因为过热而影响性能或导致系统稳定性问题。

综上所述，香橙派 AI pro在处理复杂任务时能够稳定运行，同时保持低噪音和有效的散热，这些特点使其成为开发人员和研究人员首选的工具，能够在各种应用场景下提供可靠的性能和用户体验。

能做到以上种种，开发板设计者预留的这块巨大的散热模组功不可没，这也充分体现出了这块优秀的开发板为开发者而生的优良性能。

二、上手实测与部署大模型

2.1 项目介绍

本次实测是基于香橙派 AI pro 开发版强大的AI算力，高达8-12TOPS的AI算力给未来的AI应用开发提供了无限可能，因此，此次实测，我们将基于Ollama这个强大的框架,在我们的香橙派 AI pro 开发版上部署通义千问大模型。

通义千问大模型是由阿里云研发的人工智能模型，属于AI Generated Content（AIGC）领域，是一个多模态大模型（Multimodal Models）通义千问具备多轮对话、文案创作、逻辑推理、多模态理解和多语言支持等功能，能够与人类进行多轮交互，并融入了多模态知识理解。此外，它还能够进行小说续写、邮件编写等创作活动，是笔者最喜欢的大模型之一。

这里还需要简单介绍一下Ollama，Ollama用于在 Docker 容器中部署 LLM。它帮助用户快速在本地运行大模型，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型。

本次项目,笔者将基于自己的实践经验，展示如何香橙派 AI pro 开发版环境下部署和运行通义千问大模型，为大家展示香橙派 AI pro 开发版的强大性能和应用前景。

开机启动，这套开发版内置了 Open Euler 系统镜像。这里还是需要简单介绍一下。

Open Euler 是一由中国开源软件基金会主导，以Linux稳定系统内核为基础，华为深度参与，面向服务器、桌面和嵌入式等的一个开源操作系统

输入密码并连接WiFi，我们就得到了一台基于Open Euler的开发设备了

2.2 使用Ollama部署和运行大模型

上机第一件事，打开命令行,安装Docker

在我们的主机上安装Docker，需要设置 Docker 仓库。依次在终端执行下面的命令

sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

添加apt仓库源

echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update

安装Docker

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

验证Docker是否安装成功

sudo docker run hello-world

2.3 部署和运行开源大模型

我们本次使用的是Ollama部署和运行大模型，Ollama 是一个强大的框架，设计用于在 Docker 容器中部署 LLM。它帮助用户快速在本地运行大模型，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型。

因为我们是一台单机环境，运行环境：8核心、32G内存
docker pull ollama/ollama
该命令是从Ollma镜像库中拉取和安装Ollama环境。

目前镜像是默认连接Github下载，如果尝试多次都是连接timeout，建议手动从Ollama官网下载安装

接下来我们启动
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
下面我们来依次详细解释一下这条命令及其各个部分:

docker run：这个命令用于创建并启动一个新的 Docker 容器。

-d：这个标志表示容器将在后台运行（detached mode），会在终端中立即获得命令提示符。

--gpus=all：将所有可用的 GPU 资源分配给这个容器。如果有GPU配置,我们还是需要的。

-v ollama:/root/.ollama：这条命令设置了一个名为 "ollama" 的卷，并将其挂载到容器内的路径 /root/.ollama。卷用于在容器的生命周期之外持久化存储数据。

-p 11434:11434：这个选项将主机上的端口 11434 映射到容器内部的端口 11434。这样做是为了允许从外部访问容器内运行的服务，对外暴露端口。

--name ollama：这个选项为容器指定了名称 "ollama"。通过指定名称，可以更方便地管理和引用容器，而不是仅依靠自动生成的 ID。

ollama/ollama：这指定了用于创建容器的 Docker 镜像。Docker Hub了我们需要的 "ollama/ollama" 的镜像。

接下来我们在本地启动
docker exec -it ollama ollama run llama2
这条命令是在已经运行的名为 "ollama" 的 Docker 容器内部执行命令 "ollama run llama2"

这条命令及其各个部分的解析如下:

docker exec：这个命令用于在运行中的 Docker 容器内部执行命令。

-it：这两个选项一起使用，-i 表示交互模式（interactive），-t 表示终端（terminal），允许你与容器内的命令进行交互。

ollama：这是指定要执行命令的"ollama"容器的名称ID 。

ollama run llama2：这是要在容器内部执行的实际命令。在这里，它通过 "ollama" 工具执行 "run llama2" 命令。

解释:

通过 docker exec -it ollama， Docker 在名为 "ollama" 的容器内执行命令。

ollama run llama2 是在容器内部运行的实际命令。

操作后进入Ollama容器，（docker exec -it ollama ollama）启动Ollama，并且自动运行llama2大模型。如果是手动启动的Ollama服务，可以运行如下：
sudo systemctl start ollama
systemctl start ollama：命令使用 systemd 工具来启动我们的 "ollama" 服务。

systemd 是用于管理和控制 Linux 系统服务的工具。它允许你启动、停止、重启和管理系统服务。

2.4 下载大模型和运行

Ollama官方地址：https://ollama.com/library

搜索qwen，进入通义千问qwen1.5系列模型链接：qwen (ollama.com)

默认看到6个模型，如果需要更多量化版本的模型，可以在下拉框选择tags中，看到更多量化版本的模型。

6 model sizes, including 0.5B, 1.8B, 4B (default), 7B, 14B, 32B (new) and 72B

ollama run qwen:0.5b

ollama run qwen:1.8b

ollama run qwen:4b

ollama run qwen:7b

ollama run qwen:14b

ollama run qwen:32b

ollama run qwen:72b

ollama run qwen:110b

选择好了模型以后，直接运行对应的命令（这里需要修改内容为你需要的模型，笔者采用的是1.8）
ollama run qwen:1.8b
通过这个命令会指示ollama下载Qwen 1.8b模型（如果尚未下载）并启动模型服务，使您能够通过HTTP API与模型进行交互

完成自动下载和运行，就可以进行对话了，使用qwen:1.8b运行，速度会偏慢（回答问题需要等待）

当然也可以采用量化版本运行：
ollama run qwen:4b-chat-v1.5-q5_K_M
效果会稍微好些

下次想运行时和使用，输入以下命令
sudo systemctl start ollama
ollama run qwen:1.8b
sudo systemctl start ollama:启动Ollama服务

ollama run qwen:1.8b:运行特定模型

三、香橙派 AI pro的使用体验

3.1 性能和配置

收到开发板并实际上手体验的这俩天，香橙派 AI pro开发板带给我的感觉就是优秀和稳定，无论是本地部署大模型还是办公的一般体验都是相当好的，而且尽管是一个开发板，它的散热也没有任何妥协，使用过程中没有一次因为负载过重导致自动重启，在持续的高负荷运作中，体感温度一直保持在50到60°左右，要知道我们本次实现的内容也算是重活了，这也体现了香橙派 AI pro对做工和温控方面的严格。

搭载着目前业界最强大的 8/20TOPS澎湃算力，AI 处理器，丰富的插件扩展口，对未来的嵌入式AI 项目，具有良好的支持。可玩度那是非常的高，为项目创新和开发人员提供广阔的空间，不仅可以用做智能家居开发，还能对各种ALot 都可以能应用

3.2 丰富的开发者社区和官方资料

丰富的社区也应证了我的猜想，这就是一款针对开发者，并且收到广大开发者喜爱的开发硬件设备。

包括大量年轻人活跃的某站，也有大量基于香橙派的开发视频。

官方也为我们提供了相当有趣的项目供我们学习和实践上手测试。

四、个人感受

收到香橙派 AI Pro开发板并进行了实际上手体验的这几天，我深切感受到了它带来的优异性能和稳定性。

首先，无论是在本地部署大型模型还是日常办公中的一般体验，这块开发板都展现出了相当好的表现。不仅如此，即使在持续高负载的情况下，它也从未出现过自动重启等异常情况。

散热方面更是没有任何妥协。在长时间的高负荷运行中，手触散热铝块的体感温度始终保持在50到60度左右(危险行为不要模仿，小心摸到风扇)，这对于一块处理复杂任务的设备来说是相当令人满意的。

这反映了香橙派 AI Pro在做工和温控方面的严格标准，确保了长时间稳定的运行。

香橙派 AI Pro搭载着业界最强大的8/20TOPS澎湃算力的AI处理器，同时提供丰富的插件扩展口，为未来的嵌入式AI项目提供了良好的支持。

它不仅仅可以用于智能家居开发，还能广泛应用于各种AI项目中，这使得它具有非常高的可玩性，为项目创新和开发人员提供了广阔的空间。

总的来说，香橙派 AI Pro给我留下了深刻的印象，它不仅在性能和稳定性上表现出色，而且在设计和扩展性方面也非常出色。对于需要进行复杂AI处理和嵌入式系统开发的项目的开发者来说，它是一个非常强大和可靠的选择。

结语

以上内容就是此次体验香橙派 AI pro的感受和如何基于Ollama实战大模型部署的全部内容了。

有赖于香橙派 AI pro这块板子配备的 8/20TOPS澎湃算力，PS:是目前开发板市场中所具备的最大算力，这款业界首款基于昇腾深度研发的AI开发板，为我们的实践上手提供了很大助力。

相信你们看到这里也已经迫不及待的想体验体验了，快去基于你的香橙派 AI pro部署并实测吧，那咱们就下次再见啦。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Hunyuan OCR & Z-Image-Turbo 正式上线！两大模型在 NPU 加速平台完成部署，开启 AI 识图新时代！

AtomGit开源社区

智谱开源天团登陆 AtomGit，4 大模型覆盖多模态全场景！

AtomGit开源社区

[深度评测] Zotero vs. EndNote vs. 沁言学术：下一代科研文献管理与知识生成平台的架构对比与选型指南

然而，随着AI技术的浪潮席卷而来，我们对科研工具的期待正在发生根本性转变——我们不再满足于一个被动的管理器，而是渴望一个能够主动辅助思考、生成洞见的“智能知识工作空间”。本文将从技术架构的视角，深度对比经典代表Zotero/EndNote与新生代平台“沁言学术”，探讨它们在设计哲学、技术实现和未来潜力上的核心差异，并为不同需求的研究者提供一份实用的选型指南。它们将数据处理和智能计算的重心迁移到云端