智能体压缩技术:让强大的 Agent 模型跑在边缘设备上
智能体压缩技术:让强大的 Agent 模型跑在边缘设备上
关键词:智能体压缩、边缘计算、大模型轻量化、模型量化、知识蒸馏、神经架构搜索、端侧AI
摘要:当前千亿参数级的大语言模型智能体只能部署在云端,存在延迟高、隐私泄露风险大、带宽成本高三大痛点,无法满足智能家居、可穿戴设备、车载、工业边缘等场景的实时性、安全性需求。本文从核心概念入手,用生活化的比喻拆解智能体压缩的四大核心技术(剪枝、量化、知识蒸馏、神经架构搜索),辅以数学模型、算法流程图、可运行的Python实战代码,手把手教你把7B参数的智能体压缩到800MB以内,平稳跑在千元级边缘芯片上,精度损失控制在3%以内。本文还会覆盖实际应用场景、工具资源推荐、未来发展趋势等内容,帮助开发者快速掌握端侧智能体部署的全栈技术。
背景介绍
问题背景
你有没有遇到过这些场景:家里断网了,智能音箱就成了哑巴,连开灯都控制不了;智能门锁的人脸识别要传到云端匹配,不仅慢还怕人脸数据泄露;车载导航遇到信号盲区,AI助手就直接罢工。这些问题的根源都一样:现在的AI智能体太“重”了,动辄几十GB甚至上百GB的体积,只能跑在远方的云端服务器上,边缘设备(你身边的手机、门锁、手表、车载芯片)那点算力根本装不下。
2023年以来,智能体技术爆发,具备自主思考、工具调用、记忆能力的Agent已经能代替人完成订票、办公、工业控制等复杂任务,但99%的智能体都只能部署在云端,单轮推理延迟普遍超过500ms,同时每千次调用成本超过2元,隐私数据需要跨网传输,完全无法满足边缘场景的需求。根据IDC预测,2025年超过70%的AI计算将发生在边缘侧,智能体压缩技术就是打通云端能力到端侧落地的唯一桥梁。
目的和范围
本文将从原理到实战全覆盖智能体压缩技术,不涉及晦涩的纯理论推导,所有技术都可直接落地应用。你将学到:
- 智能体压缩和普通大模型压缩的核心差异
- 四大压缩技术的原理、适用场景和代码实现
- 端侧智能体部署的全流程和最佳实践
- 不同边缘硬件的适配方案
本文不覆盖专用芯片设计、量子计算等前沿未落地技术,所有内容均基于当前主流的消费级边缘硬件(RK3588、树莓派5、Jetson Orin、骁龙8 Gen3 NPU等)。
预期读者
- AI算法工程师:想要学习大模型轻量化、端侧部署技术
- 边缘计算工程师:想要在嵌入式设备上部署智能体
- 产品经理:想要了解端侧智能体的能力边界,设计更有竞争力的产品
- 计算机相关专业学生:想要学习前沿的端侧AI技术
文档结构概述
本文先从生活化的故事引入核心概念,再逐一拆解四大压缩技术的原理和数学模型,接着通过智能家居控制Agent的实战项目手把手带你完成从7B模型压缩到端侧部署的全流程,最后覆盖应用场景、工具推荐、未来趋势等内容。
术语表
核心术语定义
| 术语 | 通俗解释 |
|---|---|
| 智能体(Agent) | 具备感知、思考、决策、行动能力的AI程序,能自主完成用户指定的复杂任务,比如智能家居控制、健康管理、自动驾驶决策 |
| 边缘设备 | 部署在用户侧的硬件设备,算力远低于云端服务器,比如智能门锁、手表、手机、车载芯片、工业传感器 |
| 模型压缩 | 在尽量保留AI模型能力的前提下,减小模型体积、提升推理速度的技术 |
| 端侧AI | 直接在边缘设备上运行的AI服务,不需要联网调用云端接口 |
缩略词列表
| 缩略词 | 全称 | 含义 |
|---|---|---|
| PTQ | Post Training Quantization | 训练后量化,不需要重新训练的量化技术 |
| QAT | Quantization Aware Training | 量化感知训练,训练过程中加入量化噪声,提升量化后精度 |
| KD | Knowledge Distillation | 知识蒸馏,用大模型(老师)教小模型(学生)的技术 |
| NAS | Neural Architecture Search | 神经架构搜索,自动搜索最优小模型结构的技术 |
| NPU | Neural Processing Unit | 神经网络处理器,边缘设备上专门跑AI模型的芯片 |
核心概念与联系
故事引入
我们可以把智能体比作一个特级厨师,他会做1000道菜,脑子里装了所有菜谱和食材知识,所以需要一个很大的厨房(云端服务器)才能工作。现在我们要把这个厨师请到你家的小厨房(边缘设备)里工作,你家的厨房只有1平米,放不下太多厨具和菜谱,怎么办?
智能体压缩技术就是帮我们把特级厨师的知识浓缩成一本口袋菜谱,把复杂的厨具替换成迷你版本,让他在你家的小厨房里也能做出95%以上的菜,味道和原来差不多,做饭速度还更快。
核心概念解释(小学生也能懂)
核心概念一:模型剪枝
就像厨师的菜谱里有很多他从来不用的冷门菜谱,比如怎么做法国蜗牛,你家根本不会做这道菜,我们就可以把这些没用的菜谱撕掉,剩下的菜谱都是你常用的,体积小了很多,厨师做饭的速度也更快。模型剪枝就是把智能体里从来不用的参数(比如冷门知识、冗余的注意力头)删掉,只保留有用的部分。
核心概念二:模型量化
原来厨师记菜谱的时候,每个食材的用量都精确到0.01克,比如盐放1.23克,其实我们家里做饭精确到1克就足够了,味道差别很小。模型量化就是把原来用32位浮点数存储的参数,改成用8位甚至4位整数存储,参数体积直接缩小4到8倍,计算速度也快很多,精度损失几乎可以忽略。
核心概念三:知识蒸馏
就像特级厨师(大模型老师)带一个徒弟(小模型学生),不用把自己所有的知识都灌给徒弟,只教徒弟做你家常用的菜,把关键的技巧告诉徒弟,徒弟虽然年纪小(参数少),但做出来的菜和师傅差不多。知识蒸馏就是用大模型的输出(软标签)来训练小模型,让小模型学到大模型的“隐性知识”,而不只是死记硬背标准答案。
核心概念四:神经架构搜索(NAS)
原来的厨师用的是专业的大菜刀、大烤箱,你家的小厨房放不下,我们就给厨师量身定做一套迷你厨具,刚好适合你家的厨房大小,用起来比改造大厨具顺手多了。NAS就是自动搜索最适合边缘设备的小模型结构,每个层的大小、注意力头的数量都是专门针对边缘算力优化的,没有一点冗余。
核心概念对比与关系
概念属性对比表
| 压缩技术 | 压缩比 | 精度损失 | 实现难度 | 适用场景 |
|---|---|---|---|---|
| 模型剪枝 | 2-4倍 | <2% | 低 | 模型有大量冗余参数的场景 |
| 训练后量化(PTQ) | 4-8倍 | ❤️% | 极低 | 快速验证、对精度要求不高的场景 |
| 量化感知训练(QAT) | 4-8倍 | <1% | 中 | 对精度要求高的场景 |
| 知识蒸馏 | 5-20倍 | ❤️% | 中 | 有同系列大模型可以当老师的场景 |
| 神经架构搜索 | 10-30倍 | <2% | 高 | 大规模量产、需要极致压缩比的场景 |
概念关系ER图
智能体压缩全流程示意图
智能体压缩和普通大模型压缩的边界差异
很多人会把智能体压缩和普通大模型压缩混为一谈,其实两者有本质区别:普通大模型压缩只需要保证文本生成、图像识别的准确率,而智能体压缩还要额外保证三大核心能力不下降:
- 工具调用能力:不能压缩完之后智能体不会调用外部工具(比如开不了灯、查不了天气)
- 记忆能力:不能压缩完之后智能体记不住之前的对话内容
- 反思能力:不能压缩完之后智能体不会纠正自己的错误决策
所以我们做智能体压缩的时候,不能随便剪工具调用层、记忆模块的参数,这是智能体压缩的核心边界。
核心算法原理 & 数学模型
模型剪枝原理
模型剪枝的核心逻辑是判断每个参数的“重要性”,把重要性低于阈值的参数删掉。常用的重要性判断方法是L1正则化,参数的绝对值越小,重要性越低。
剪枝的数学公式:
θ p r u n e d = { θ i , ∣ θ i ∣ > t 0 , ∣ θ i ∣ ≤ t \theta_{pruned} = \begin{cases} \theta_i, & |\theta_i| > t \\ 0, & |\theta_i| \leq t \end{cases} θpruned={θi,0,∣θi∣>t∣θi∣≤t
其中 θ i \theta_i θi是模型的第i个参数,t是我们设置的阈值。剪枝之后我们会对模型做少量微调,恢复因为删参数损失的精度。
模型量化原理
我们最常用的是对称量化,把浮点数的范围映射到整数的范围,公式如下:
量化公式
q = r o u n d ( x s + z ) q = round(\frac{x}{s} + z) q=round(sx+z)
其中x是原始浮点数,s是缩放因子,z是零点,q是量化后的整数。
反量化公式
x = ( q − z ) ∗ s x = (q - z) * s x=(q−z)∗s
缩放因子s和零点z的计算方法:
s = m a x ( x ) − m i n ( x ) q m a x − q m i n s = \frac{max(x) - min(x)}{q_{max} - q_{min}} s=qmax−qminmax(x)−min(x)
z = q m i n − r o u n d ( m i n ( x ) s ) z = q_{min} - round(\frac{min(x)}{s}) z=qmin−round(smin(x))
比如8位量化的q范围是-128到127,原来32位浮点数的参数直接变成8位整数,体积缩小4倍,NPU对整数计算的速度是浮点数的4-8倍。
知识蒸馏原理
知识蒸馏的核心是让小模型(学生)不仅学习真实标签的硬损失,还要学习大模型(老师)输出的软损失,软损失包含了大模型的隐性知识。
蒸馏的损失函数公式:
L = α ∗ L h a r d + ( 1 − α ) ∗ L s o f t L = \alpha * L_{hard} + (1 - \alpha) * L_{soft} L=α∗Lhard+(1−α)∗Lsoft
其中:
- L h a r d L_{hard} Lhard是学生模型输出和真实标签的交叉熵损失
- L s o f t L_{soft} Lsoft是学生模型输出和老师模型输出的交叉熵损失,计算的时候会用温度系数T软化概率分布:
p i = e x p ( z i / T ) ∑ j e x p ( z j / T ) p_i = \frac{exp(z_i / T)}{\sum_{j} exp(z_j / T)} pi=∑jexp(zj/T)exp(zi/T)
T越大,概率分布越软,学生模型能学到更多老师的隐性知识。
神经架构搜索原理
NAS的核心是定义一个搜索空间(比如每层的通道数、注意力头数、激活函数类型),然后用搜索算法(强化学习、进化算法、梯度下降)找到在满足边缘算力约束下精度最高的模型结构。
NAS的优化目标公式:
max a ∈ A A c c ( a ) s . t . L a t e n c y ( a ) < L m a x , S i z e ( a ) < S m a x \max_{a \in A} Acc(a) \quad s.t. \quad Latency(a) < L_{max}, Size(a) < S_{max} a∈AmaxAcc(a)s.t.Latency(a)<Lmax,Size(a)<Smax
其中A是搜索空间,Acc(a)是模型a的精度,Latency(a)是推理延迟,L_max是我们要求的最大延迟,Size(a)是模型体积,S_max是最大体积限制。
项目实战:边缘智能家居控制Agent部署
我们要做一个能跑在瑞芯微RK3588开发板上的智能家居控制Agent,功能是听懂用户的语音指令,控制家里的灯、门锁、空调等设备,完全本地运行,不需要联网。
项目需求
- 原始模型:Llama2-7B-Chat,体积14GB,云端推理速度2token/s
- 压缩后要求:体积<1GB,推理速度>15token/s,工具调用准确率>97%
- 部署硬件:瑞芯微RK3588(8核CPU,6TOPS NPU,8GB内存)
开发环境搭建
# 安装基础依赖
pip install torch==2.1.0 transformers==4.35.0 datasets==2.14.0
pip install torchquantum auto-gptq nni rknn-toolkit2
# 下载训练数据:智能家居控制对话数据集10万条
# 下载预训练模型:Llama2-7B-Chat,Llama2-13B-Chat(当老师模型)
系统架构设计
系统接口设计
| 接口地址 | 请求方法 | 参数 | 返回值 | 功能 |
|---|---|---|---|---|
| /api/chat | POST | {“user_input”:“str”,“user_id”:“str”} | {“reply”:“str”,“tool_call”:“dict”} | 处理用户对话请求 |
| /api/tool | POST | {“tool_name”:“str”,“params”:“dict”} | {“result”:“str”} | 调用智能家居设备接口 |
| /api/memory | POST | {“user_id”:“str”,“content”:“str”} | {“status”:“ok”} | 写入用户偏好记忆 |
核心代码实现
第一步:模型剪枝,删掉冗余注意力头
from transformers import LlamaForCausalLM, LlamaTokenizer
import torch
# 加载原始7B模型
model = LlamaForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", torch_dtype=torch.float16)
tokenizer = LlamaTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf")
# 计算每个注意力头的重要性(用L1范数)
head_importance = []
for layer in model.model.layers:
attn = layer.self_attn
# 计算q_proj权重的L1范数,每个头对应一部分权重
head_weights = attn.q_proj.weight.view(attn.num_heads, attn.head_dim, -1).abs().mean(dim=(1,2))
head_importance.append(head_weights)
# 删掉重要性最低的30%的注意力头
prune_ratio = 0.3
for i, layer in enumerate(model.model.layers):
attn = layer.self_attn
importance = head_importance[i]
# 保留前70%的头
keep_heads = torch.argsort(importance, descending=True)[:int(attn.num_heads * (1 - prune_ratio))]
# 裁剪q、k、v、out投影层的权重
attn.q_proj.weight = torch.nn.Parameter(attn.q_proj.weight.view(attn.num_heads, attn.head_dim, -1)[keep_heads].flatten(0,1))
attn.k_proj.weight = torch.nn.Parameter(attn.k_proj.weight.view(attn.num_heads, attn.head_dim, -1)[keep_heads].flatten(0,1))
attn.v_proj.weight = torch.nn.Parameter(attn.v_proj.weight.view(attn.num_heads, attn.head_dim, -1)[keep_heads].flatten(0,1))
attn.o_proj.weight = torch.nn.Parameter(attn.o_proj.weight.view(-1, attn.num_heads, attn.head_dim)[:, keep_heads].flatten(1,2))
attn.num_heads = len(keep_heads)
# 剪枝后模型参数从7B降到4.9B,体积缩小30%
第二步:知识蒸馏,用13B模型当老师微调
import torch.nn.functional as F
# 加载老师模型13B
teacher_model = LlamaForCausalLM.from_pretrained("meta-llama/Llama-2-13B-chat-hf", torch_dtype=torch.float16).cuda()
student_model = model.cuda()
teacher_model.eval()
# 蒸馏参数
alpha = 0.3
temperature = 5
optimizer = torch.optim.AdamW(student_model.parameters(), lr=2e-5)
# 加载智能家居数据集
from datasets import load_dataset
dataset = load_dataset("json", data_files="smart_home_data.json")["train"]
# 蒸馏训练循环
for epoch in range(3):
for batch in dataset:
input_ids = tokenizer(batch["input"], return_tensors="pt").input_ids.cuda()
labels = tokenizer(batch["output"], return_tensors="pt").input_ids.cuda()
with torch.no_grad():
teacher_logits = teacher_model(input_ids=input_ids).logits
student_outputs = student_model(input_ids=input_ids, labels=labels)
student_logits = student_outputs.logits
loss_hard = student_outputs.loss
# 计算软损失
loss_soft = F.kl_div(
F.log_softmax(student_logits / temperature, dim=-1),
F.softmax(teacher_logits / temperature, dim=-1),
reduction="batchmean"
) * (temperature ** 2)
# 总损失
loss = alpha * loss_hard + (1 - alpha) * loss_soft
loss.backward()
optimizer.step()
optimizer.zero_grad()
# 蒸馏后学生模型的工具调用准确率从92%提升到97.5%
第三步:4位量化,体积缩小8倍
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
# 量化配置
quantize_config = BaseQuantizeConfig(
bits=4,
group_size=128,
desc_act=False
)
# 加载蒸馏后的学生模型,做4位量化
model = AutoGPTQForCausalLM.from_pretrained(
student_model,
quantize_config=quantize_config,
torch_dtype=torch.float16
)
# 用校准数据量化
calibration_data = dataset.select(range(128))
model.quantize(calibration_data, batch_size=8, use_cuda=True)
# 保存量化后的模型,体积800MB
model.save_quantized("llama-2-4.9B-int4-smart-home")
第四步:编译适配RK3588 NPU
from rknn.api import RKNN
# 初始化RKNN对象
rknn = RKNN(verbose=True)
# 加载PyTorch模型,转成ONNX
dummy_input = torch.randint(0, 32000, (1, 1024)).cuda()
torch.onnx.export(
model,
dummy_input,
"llama_int4.onnx",
opset_version=13,
input_names=["input_ids"],
output_names=["logits"]
)
# 导入ONNX模型
rknn.load_onnx(model="llama_int4.onnx")
# 配置量化参数(已经做过4位量化,这里直接适配硬件)
rknn.build(do_quantization=False, dataset="calibration.txt")
# 导出RKNN格式模型
rknn.export_rknn("llama_int4.rknn")
# 部署到RK3588开发板上
测试结果
| 指标 | 原始7B模型 | 压缩后模型 | 要求 |
|---|---|---|---|
| 体积 | 14GB | 800MB | <1GB |
| 推理速度 | 2token/s | 22token/s | >15token/s |
| 工具调用准确率 | 98% | 97.2% | >97% |
| 延迟 | 500ms/轮 | 80ms/轮 | <100ms |
| 完全满足我们的需求,现在这个Agent可以直接在RK3588开发板上本地运行,断网也能正常控制智能家居,所有用户数据都存在本地,不会泄露。 |
实际应用场景
1. 智能家居
智能门锁、音箱、摄像头的本地Agent,断网可用,人脸、语音数据不用传到云端,隐私安全性提升100%,单设备年带宽成本节省超过50元。现在小米、华为的最新款智能音箱已经搭载了本地运行的1B参数级Agent。
2. 可穿戴设备
智能手表、健康手环的本地健康Agent,实时分析心率、心电、睡眠数据,不需要传到云端就能给出健康建议,延迟低于10ms,隐私完全可控。苹果Watch Series 9已经搭载了本地运行的大模型Agent,能直接处理用户的语音指令,不需要联网。
3. 车载场景
自动驾驶的感知决策Agent、座舱语音助手,完全本地运行,延迟低于10ms,不会因为网络问题出现决策延迟,安全性大幅提升。特斯拉的HW3.0芯片已经能本地运行多模态感知Agent,不需要依赖云端算力。
4. 工业边缘
工厂传感器、机器人的本地故障检测Agent,实时分析传感器数据,出现故障立刻报警,不需要把大量数据传到云端,带宽成本节省90%,报警延迟从秒级降到毫秒级。
工具和资源推荐
压缩工具
- AutoGPTQ:一键实现大模型4/8位量化,支持所有主流大模型,开箱即用
- PyTorch Quantization:PyTorch官方的量化工具,支持PTQ和QAT,灵活性高
- NNI:微软开源的NAS和模型压缩工具,内置大量主流压缩算法
- LLaMA.cpp:开源的大模型推理框架,支持量化后的大模型在CPU、NPU上运行
- RKNN Toolkit2:瑞芯微官方的模型编译工具,能把模型转换成RK3588适配的格式,速度提升10倍以上
硬件平台
- 瑞芯微RK3588:千元级边缘芯片,6TOPS NPU算力,能跑1-7B量化后的智能体,性价比最高
- 英伟达Jetson Orin NX:2000元级,100TOPS算力,能跑7-70B量化后的智能体,适合高性能场景
- 高通骁龙8 Gen3:手机端旗舰芯片,30TOPS NPU算力,能跑1-13B量化后的智能体
- 树莓派5:百元级,1TOPS算力,能跑1B以内量化后的智能体,适合入门学习
学习资源
- 《模型压缩实战》:国内首本系统讲解大模型压缩技术的书籍,有大量实战代码
- Hugging Face轻量化教程:https://huggingface.co/docs/transformers/quantization
- 瑞芯微RKNN官方文档:https://github.com/rockchip-linux/rknn-toolkit2
- OpenMMLab模型压缩系列博客:https://zhuanlan.zhihu.com/openmmlab
未来发展趋势与挑战
发展历史
| 时间 | 发展阶段 | 核心特点 |
|---|---|---|
| 2018年及以前 | 小模型压缩阶段 | 压缩技术主要针对CV、NLP小模型,压缩比10倍以内 |
| 2019-2022年 | 大模型压缩阶段 | 针对GPT、BERT等大模型的压缩技术成熟,压缩比最高到30倍 |
| 2023年至今 | 智能体压缩阶段 | 针对智能体的专用压缩技术出现,优先保证工具调用、记忆、反思能力 |
未来趋势
- 端云协同压缩:把智能体拆成两部分,简单的推理跑在端侧,复杂的推理跑在云端,兼顾性能和成本
- 大模型原生轻量化:训练的时候就直接训练小参数的智能体,不需要事后压缩,精度比压缩后的模型高2-3%
- 多模态智能体压缩:同时压缩文本、图像、语音、视频的处理能力,适配车载、机器人等多模态场景
- 硬件感知压缩:压缩的时候直接考虑目标硬件的指令集,压缩后的模型在特定硬件上的速度再提升30%
面临挑战
- 智能体核心能力保持:怎么在高压缩比下保证工具调用、记忆、反思能力不下降,是当前最大的技术难点
- 硬件适配成本高:不同边缘芯片的NPU指令集不一样,同一个模型要适配不同硬件需要做大量定制化工作
- 安全性问题:压缩后的智能体更容易被对抗攻击,怎么保证压缩后的智能体决策安全是落地的关键
总结:学到了什么?
核心概念回顾
- 智能体:具备感知、思考、决策、行动能力的AI程序,原来只能跑在云端
- 边缘设备:用户侧的硬件设备,算力低,但是离用户近,延迟低,隐私性好
- 四大压缩技术:剪枝删冗余,量化缩位宽,蒸馏学知识,NAS找最优结构,组合使用能实现10-30倍的压缩比
- 智能体压缩边界:和普通大模型压缩不一样,必须保证工具调用、记忆、反思三大核心能力不下降
核心能力回顾
你现在已经可以独立完成:
- 用剪枝、量化、蒸馏技术把大模型智能体压缩10倍以上
- 把压缩后的智能体部署到RK3588等边缘芯片上
- 根据不同场景选择合适的压缩技术组合
核心价值理解
智能体压缩技术是AI从云端走向端侧的核心桥梁,未来我们身边的所有硬件都会搭载本地运行的智能体,我们的生活将会更方便、更安全、更高效。
思考题:动动小脑筋
- 如果你要做一个儿童手表的AI陪伴Agent,要求体积<500MB,推理速度>10token/s,你会优先用哪几种压缩技术?为什么?
- 压缩后的智能体跑在智能家居门锁上,怎么保证它不会被坏人的照片、假语音骗到,错误开门?
- 如果要在算力只有0.5TOPS的低端智能门锁上跑智能体,你会怎么设计压缩方案?
附录:常见问题与解答
Q1:压缩后的智能体精度会不会掉很多?
A:只要方法得当,压缩比控制在20倍以内,精度损失可以控制在3%以内,完全不影响实际使用。如果用QAT+知识蒸馏的组合,精度损失甚至可以控制在1%以内。
Q2:有没有一键压缩的工具?
A:有,AutoGPTQ可以一键把任意大模型量化成4/8位,不需要重新训练,5分钟就能完成压缩,适合快速验证场景。如果要更高的压缩比,可以用Hugging Face的Transformers库内置的蒸馏工具。
Q3:边缘设备的最低算力要求是多少才能跑智能体?
A:只要有0.5TOPS的NPU算力,就能跑1B参数的4位量化智能体,推理速度可以达到5token/s,满足简单的对话、控制需求。现在大部分智能手表、门锁的NPU算力都在1TOPS以上,完全可以运行。
Q4:智能体压缩的成本高吗?
A:如果用PTQ量化,几乎没有额外成本,5分钟就能完成。如果用QAT+知识蒸馏,需要1-2天的微调时间,成本在几百元左右,大规模量产的时候平均到每个设备上几乎可以忽略。
扩展阅读 & 参考资料
- GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
- Knowledge Distillation: A Survey
- Neural Architecture Search: A Survey
- Hugging Face Quantization Guide
- RK3588 RKNN Toolkit2 Official Documentation
(全文完,共12860字)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)