蓝迪哥玩转Ai(8)---端侧AI:RK3588 端侧大语言模型（LLM）开发实战指南

landyjzlai

520人浏览 · 2026-05-05 11:08:07

landyjzlai · 2026-05-05 11:08:07 发布

蓝迪哥玩转Ai(8)—端侧AI:RK3588 端侧大语言模型（LLM）开发实战指南

正点原子 ATK-DLRK3588 开发板
V1.0 | 2026年5月5日

一、前言

FPGA ，ARM, RISC-V, NPU大家都要认真努力学习。先科普一个简单的文章：

1.1 什么是端侧 LLM？

端侧 LLM 是指在本地设备上运行大语言模型，相比云端部署具有以下优势：
优势说明
隐私安全数据不离开本地设备
低延迟无需网络传输，响应更快
离线可用不依赖网络连接
成本更低无需支付云服务费用

二、RK3588 与 RKLLM 技术概述

2.1 RK3588 芯片特性

特性规格
CPU 四核 Cortex-A76 + 四核 Cortex-A55
GPU Mali-G610 MC4
NPU 6TOPS INT8/INT16/FP16

2.2 RKLLM 软件架构

RKLLM 是瑞芯微为大语言模型部署设计的完整软件栈：
在这里插入图片描述

                               图 1: RKLLM 软件架构图

2.3 RKLLM 技术特点

支持多种模型架构
• LLaMA / LLaMA2
• Qwen / Qwen2 / Qwen3
• Phi-2 / DeepSeek-R1
支持多种量化精度
• w8a8：8位权重 + 8位激活（推荐 RK3588）
• w4a16：4位权重 + 16位激活（更小模型）

三、LLM 模型转换详解

3.1 模型转换流程

┌─────────────────┐ ┌─────────────────┐ ┌─────────────────┐
│ Hugging Face │────>│ RKLLM-Toolkit │────>│ RKLLM │
│ 模型 │ │ 转换工具 │ │ 量化模型 │
└─────────────────┘ └─────────────────┘ └─────────────────┘
图 2: LLM 模型转换流程

3.2 安装 RKLLM-Toolkit

创建 Python 虚拟环境

python3 -m venv rkllm_env
source rkllm_env/bin/activate
pip install rkllm-toolkit

3.3 模型转换代码

from rkllm.api import RKLLM

llm = RKLLM()
ret = llm.load_huggingface(model=‘./Qwen1.8B’, device=‘cpu’)

ret = llm.build(do_quantization=True,
quantized_dtype=‘w8a8’,
target_platform=‘rk3588’,
num_npu_core=3,
dataset=‘./data_quant.json’)
ret = llm.export_rkllm(‘./qwen1.8b-w8a8-rk3588.rkllm’)