引言

当今,人工智能技术日益成熟,大语言模型作为其重要组成部分,正以惊人的速度改变着我们的生活和工作方式。

今天也是很荣幸,博主得到平台的信任,有幸拿到了一块香橙派 AI pro,这块板子作为业界首款基于昇腾深度研发的AI开发板,其配备的 8/20TOPS澎湃算力是目前开发板市场中所具备的最大算力,那么今天我们就将探索如何利用香橙派 AIpro 平台,通过Ollama将大语言模型部署到本地。

目录

引言

一、香橙派与迅龙软件介绍

1.1 香橙派 AI pro 开发版

1.2 外观评价

1.3 开发板的噪音散热表现

 二、上手实测与部署大模型

2.1 项目介绍

2.2 使用Ollama部署和运行大模型

2.3 部署和运行开源大模型

2.4 下载大模型和运行 

三、香橙派 AI pro的使用体验 

3.1 性能和配置

3.2 丰富的开发者社区和官方资料 

四、个人感受

结语


一、香橙派与迅龙软件介绍

香橙派(Orange Pi)是一系列由深圳市迅龙软件有限公司。公司成立于2005年,作为全球领先的开源硬件和开源软件服务商,致力于让极客、创客、电子爱好者享用到优质而具有高性价比的科技产品,通过大规模的社会化协作去创建一个更加美好的信息化人类文明。

1.1 香橙派 AI pro 开发版

 此次评测的是香橙派 AI pro 开发版,香橙派AI pro开发板是由香橙派联合华为推出的高性能AI开发板,它采用了昇腾AI技术路线,集成了4核64位处理器和AI处理器,支持高达8-12TOPS的AI算力。

该开发板配备了8GB/16GB LPDDR4X内存,并支持通过eMMC模块或M.2接口扩展存储空间。

香橙派AIpro还支持双4K高清输出,并提供了丰富的接口,包括两个HDMI输出、GPIO接口、Type-C电源接口、支持SATA/NVMe SSD的M.2插槽等,适用于多种AI应用场景。

如AI边缘计算、深度视觉学习、视频分析等。操作系统方面,香橙派AIpro支持Ubuntu和openEuler,以满足不同开发者的需求 。

1.2 外观评价

这么强劲的一块开发板,笔者刚收到板子的心情非常激动的,这边随手拍拍给大家展示一下,不多不说香橙派这次外观上没得说,无论是包装还是内部做工都很专业很精致。 

 接上线开机完全体,应该是我拍照的问题,感觉图片看起来都好丑啊!!!

1.3 开发板的噪音、散热方面表现

作为一块为开发者而生的开发板,香橙派 AI pro在高负载下仍然做到了噪音和散热方面的平衡。

具有稳定的高负载处理能力, 能够在长时间高负载的情况下保持稳定运行,不会因为负载过重而出现性能下降或自动重启的情况。
支持复杂任务的处理能力,基于强大的算力,它能够处理复杂的计算任务,如大型模型的训练或推理,而不会出现明显的延迟或卡顿。

噪音控制方面,开发板的散热模组选择了低噪音设计, 通过采用有效的散热设计和静音风扇,以减少噪音。即使在高负载时,它的风扇也能保持较低的转速,从而降低噪音水平。
从而做到静音运行, 在日常使用中,开发板的运行噪音足够低,不会干扰到周围的工作环境或人员。


而散热效果方面,这套高效的散热系统能够有效地将热量分散和排出,确保在长时间高负载运行时仍能保持适当的工作温度,并做到稳定的温度控制,即便在高负荷运作下,开发板的温度叶能够保持在安全范围内,不会因为过热而影响性能或导致系统稳定性问题。

综上所述,香橙派 AI pro在处理复杂任务时能够稳定运行,同时保持低噪音和有效的散热,这些特点使其成为开发人员和研究人员首选的工具,能够在各种应用场景下提供可靠的性能和用户体验。

能做到以上种种,开发板设计者预留的这块巨大的散热模组功不可没,这也充分体现出了这块优秀的开发板为开发者而生的优良性能。

 

 二、上手实测与部署大模型

2.1 项目介绍

本次实测是基于香橙派 AI pro 开发版强大的AI算力,高达8-12TOPS的AI算力给未来的AI应用开发提供了无限可能,因此,此次实测,我们将基于Ollama这个强大的框架,在我们的香橙派 AI pro 开发版上部署通义千问大模型。

通义千问大模型是由阿里云研发的人工智能模型,属于AI Generated Content(AIGC)领域,是一个多模态大模型(Multimodal Models)通义千问具备多轮对话、文案创作、逻辑推理、多模态理解和多语言支持等功能,能够与人类进行多轮交互,并融入了多模态知识理解。此外,它还能够进行小说续写、邮件编写等创作活动,是笔者最喜欢的大模型之一。

这里还需要简单介绍一下Ollama,Ollama用于在 Docker 容器中部署 LLM。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型。

本次项目,笔者将基于自己的实践经验,展示如何香橙派 AI pro 开发版环境下部署和运行通义千问大模型,为大家展示香橙派 AI pro 开发版的强大性能和应用前景。

开机启动,这套开发版内置了 Open Euler 系统镜像。这里还是需要简单介绍一下。

Open Euler 是一由中国开源软件基金会主导,以Linux稳定系统内核为基础,华为深度参与,面向服务器、桌面和嵌入式等的一个开源操作系统

输入密码并连接WiFi,我们就得到了一台基于Open Euler的开发设备了

2.2 使用Ollama部署和运行大模型

上机第一件事,打开命令行,安装Docker

在我们的主机上安装Docker,需要设置 Docker 仓库。依次在终端执行下面的命令

sudo apt-get update
sudo apt-get install ca-certificates curl
sudo install -m 0755 -d /etc/apt/keyrings
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc
sudo chmod a+r /etc/apt/keyrings/docker.asc

 添加apt仓库源

echo \
  "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \
  $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \
  sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
sudo apt-get update

安装Docker

sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

验证Docker是否安装成功

sudo docker run hello-world

2.3 部署和运行开源大模型

我们本次使用的是Ollama部署和运行大模型,Ollama 是一个强大的框架,设计用于在 Docker 容器中部署 LLM。它帮助用户快速在本地运行大模型,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型。

因为我们是一台单机环境,运行环境:8核心、32G内存

docker pull ollama/ollama

该命令是从Ollma镜像库中拉取和安装Ollama环境。

目前镜像是默认连接Github下载,如果尝试多次都是连接timeout,建议手动从Ollama官网下载安装

 接下来我们启动

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

下面我们来依次详细解释一下这条命令及其各个部分:

  • docker run:这个命令用于创建并启动一个新的 Docker 容器。
  • -d:这个标志表示容器将在后台运行(detached mode),会在终端中立即获得命令提示符。
  • --gpus=all:将所有可用的 GPU 资源分配给这个容器。如果有GPU配置,我们还是需要的。
  • -v ollama:/root/.ollama:这条命令设置了一个名为 "ollama" 的卷,并将其挂载到容器内的路径 /root/.ollama。卷用于在容器的生命周期之外持久化存储数据。
  • -p 11434:11434:这个选项将主机上的端口 11434 映射到容器内部的端口 11434。这样做是为了允许从外部访问容器内运行的服务,对外暴露端口。
  • --name ollama:这个选项为容器指定了名称 "ollama"。通过指定名称,可以更方便地管理和引用容器,而不是仅依靠自动生成的 ID。
  • ollama/ollama:这指定了用于创建容器的 Docker 镜像。Docker Hub了我们需要的 "ollama/ollama" 的镜像。

接下来我们在本地启动

docker exec -it ollama ollama run llama2

这条命令是在已经运行的名为 "ollama" 的 Docker 容器内部执行命令 "ollama run llama2"

这条命令及其各个部分的解析如下:

  • docker exec:这个命令用于在运行中的 Docker 容器内部执行命令。
  • -it:这两个选项一起使用,-i 表示交互模式(interactive),-t 表示终端(terminal),允许你与容器内的命令进行交互。
  • ollama:这是指定要执行命令的"ollama"容器的名称ID 。
  • ollama run llama2:这是要在容器内部执行的实际命令。在这里,它通过 "ollama" 工具执行 "run llama2" 命令。

解释:

  • 通过 docker exec -it ollama, Docker 在名为 "ollama" 的容器内执行命令。
  • ollama run llama2 是在容器内部运行的实际命令。

操作后进入Ollama容器,(docker exec -it ollama ollama)启动Ollama,并且自动运行llama2大模型。如果是手动启动的Ollama服务,可以运行如下:

sudo systemctl start ollama
  • systemctl start ollama:命令使用 systemd 工具来启动我们的 "ollama" 服务。
  • systemd 是用于管理和控制 Linux 系统服务的工具。它允许你启动、停止、重启和管理系统服务。

2.4 下载大模型和运行 

Ollama官方地址:https://ollama.com/library

搜索qwen,进入通义千问qwen1.5系列模型链接:qwen (ollama.com)

默认看到6个模型,如果需要更多量化版本的模型,可以在下拉框选择tags中,看到更多量化版本的模型。

6 model sizes, including 0.5B, 1.8B, 4B (default), 7B, 14B, 32B (new) and 72B

  • ollama run qwen:0.5b
  • ollama run qwen:1.8b
  • ollama run qwen:4b
  • ollama run qwen:7b
  • ollama run qwen:14b
  • ollama run qwen:32b
  • ollama run qwen:72b
  • ollama run qwen:110b

 选择好了模型以后,直接运行对应的命令(这里需要修改内容为你需要的模型,笔者采用的是1.8)

ollama run qwen:1.8b

通过这个命令会指示ollama下载Qwen 1.8b模型(如果尚未下载)并启动模型服务,使您能够通过HTTP API与模型进行交互

   

完成自动下载和运行,就可以进行对话了,使用qwen:1.8b运行, 速度会偏慢(回答问题需要等待)

当然也可以采用量化版本运行:

ollama run qwen:4b-chat-v1.5-q5_K_M

效果会稍微好些

 

 下次想运行时和使用,输入以下命令

sudo systemctl start ollama
ollama run qwen:1.8b

sudo systemctl start ollama:启动Ollama服务

ollama run qwen:1.8b:运行特定模型

 

三、香橙派 AI pro的使用体验 

3.1 性能和配置

收到开发板并实际上手体验的这俩天,香橙派 AI pro开发板带给我的感觉就是优秀和稳定 ,无论是本地部署大模型还是办公的一般体验都是相当好的,而且尽管是一个开发板,它的散热也没有任何妥协,使用过程中没有一次因为负载过重导致自动重启,在持续的高负荷运作中,体感温度一直保持在50到60°左右,要知道我们本次实现的内容也算是重活了,这也体现了香橙派 AI pro对做工和温控方面的严格。

搭载着目前业界最强大的 8/20TOPS澎湃算力,AI 处理器,丰富的插件扩展口,对未来的嵌入式AI 项目,具有良好的支持。可玩度那是非常的高,为项目创新和开发人员提供广阔的空间,不仅可以用做智能家居开发,还能对各种ALot 都可以能应用

3.2 丰富的开发者社区和官方资料 

 丰富的社区也应证了我的猜想,这就是一款针对开发者,并且收到广大开发者喜爱的开发硬件设备。

 包括大量年轻人活跃的某站,也有大量基于香橙派的开发视频。

 官方也为我们提供了相当有趣的项目供我们学习和实践上手测试。

四、个人感受

收到香橙派 AI Pro开发板并进行了实际上手体验的这几天,我深切感受到了它带来的优异性能和稳定性。

首先,无论是在本地部署大型模型还是日常办公中的一般体验,这块开发板都展现出了相当好的表现。不仅如此,即使在持续高负载的情况下,它也从未出现过自动重启等异常情况。


散热方面更是没有任何妥协。在长时间的高负荷运行中,手触散热铝块的体感温度始终保持在50到60度左右(危险行为不要模仿,小心摸到风扇),这对于一块处理复杂任务的设备来说是相当令人满意的。

这反映了香橙派 AI Pro在做工和温控方面的严格标准,确保了长时间稳定的运行。


香橙派 AI Pro搭载着业界最强大的8/20TOPS澎湃算力的AI处理器,同时提供丰富的插件扩展口,为未来的嵌入式AI项目提供了良好的支持。

它不仅仅可以用于智能家居开发,还能广泛应用于各种AI项目中,这使得它具有非常高的可玩性,为项目创新和开发人员提供了广阔的空间。


总的来说,香橙派 AI Pro给我留下了深刻的印象,它不仅在性能和稳定性上表现出色,而且在设计和扩展性方面也非常出色。对于需要进行复杂AI处理和嵌入式系统开发的项目的开发者来说,它是一个非常强大和可靠的选择。

结语

以上内容就是此次体验香橙派 AI pro的感受和如何基于Ollama实战大模型部署的全部内容了。

有赖于香橙派 AI pro这块板子配备的 8/20TOPS澎湃算力,PS:是目前开发板市场中所具备的最大算力,这款业界首款基于昇腾深度研发的AI开发板,为我们的实践上手提供了很大助力。 

相信你们看到这里也已经迫不及待的想体验体验了,快去基于你的香橙派 AI pro部署并实测吧,那咱们就下次再见啦。 

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐