模型量化技术研究资源推荐,图书推荐,论文推荐 ,学习路径,系统研究“大模型量化(LLM Quantization)
模型量化技术研究资源推荐,图书推荐,论文推荐 ,学习路径,系统研究“大模型量化(LLM Quantization)
如果你是想系统研究“大模型量化(LLM Quantization)”,我建议你按下面这个路线学:
- 经典神经网络量化(CNN/PTQ/QAT)
- Transformer / LLM 量化
- 4-bit / 3-bit / 2-bit 超低比特
- 推理框架与 CUDA Kernel
- QLoRA / 量化训练
- 工程部署(vLLM / TensorRT-LLM / llama.cpp)
你现在本身就在做 DeepSeek / Qwen / LoRA / 多卡训练,所以重点应该放在:
- GPTQ
- AWQ
- SmoothQuant
- FP8
- QLoRA
- KV Cache Quantization
- MoE Quantization
- Tensor Parallel + Quantized Inference
这些最实战。
一、先看的“核心论文”(非常重要)
1. QLoRA(必须读)
QLoRA: Efficient Finetuning of Quantized LLMs
这是现代 4bit 微调的开山论文。
提出:
- NF4
- Double Quantization
- Paged Optimizer
现在 HuggingFace / Unsloth / LLaMA Factory 基本都在吃它的路线。 (arXiv)
推荐重点:
- NF4 为什么比 INT4 更适合 LLM
- Double Quantization
- 为什么 4bit 可以保留性能
2. AWQ(部署界非常重要)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration
目前很多:
- AutoAWQ
- TinyChat
- vLLM AWQ
- TensorRT-LLM
都受它影响。 (arXiv)
核心思想:
- 只保护 1% 的重要权重
- activation-aware
- 不需要 retrain
非常适合:
- 推理部署
- 消费级 GPU
3. GPTQ(最经典)
GPTQ
这是最经典 PTQ(Post Training Quantization)路线。
重点:
- Hessian approximation
- layer-wise quantization
- sequential quantization
很多 GGUF/GPTQ 模型都基于它。
4. SmoothQuant
SmoothQuant
重点解决:
- activation outlier
非常影响:
- TensorRT-LLM
- INT8 inference
- Datacenter inference
适合研究:
- A100/H100/BW/DCU 推理
5. 最新综述(建议收藏)
A survey of low-bit large language models: Basics, systems, and algorithms
这是近年非常完整的综述。
覆盖:
- low-bit
- systems
- kernels
- hardware
- algorithms (ScienceDirect)
6. 清华最新综述(很值得)
A Survey of Quantization in LLM: Unlocking Potential Hardware Efficiency
偏硬件和系统。
适合你这种已经做训练部署的人。 (计算机科学与技术期刊)
重点:
- FP8
- MXFP4
- mixed precision
- KV cache quant
- hardware efficiency
二、建议读的“经典方向论文”
权重量化
建议顺序:
- GPTQ
- AWQ
- OmniQuant
- QuIP#
- HQQ
- BitNet
激活量化
重点:
- SmoothQuant
- ZeroQuant
- LLM.int8()
超低比特(未来方向)
重点:
- 2bit
- ternary
- binary
看:
- BitNet b1.58
- BiLLM
- QUIK
三、你应该重点研究的工程框架
这些比论文更重要。
1. llama.cpp
你会真正理解:
- GGUF
- Q4_K_M
- Q6_K
- IQ quant
- CPU/GPU hybrid offload
这是量化工程圣经。
2. AutoGPTQ
研究:
- GPTQ实现
- calibration
- quant config
3. AutoAWQ
非常适合:
- 4090
- 消费级 GPU
- Qwen / Llama
4. bitsandbytes
研究:
- NF4
- FP4
- 8bit optimizer
QLoRA 核心库。
5. TensorRT-LLM
真正企业部署路线。
研究:
- FP8
- SmoothQuant
- kernel fusion
- paged attention
6. vLLM
现代推理框架。
研究:
- quantized KV cache
- paged attention
- continuous batching
四、图书推荐(真正有价值的)
量化这领域其实“论文 > 图书”。
但下面这些值得。
1.
Neural Networks with Model Compression
系统讲:
- pruning
- quantization
- distillation
偏学术。 (Google 图书)
2.
Ultimate ONNX for Deep Learning Optimization
偏工程部署。
包含:
- quantization
- ONNX Runtime
- edge deployment (Apple)
五、你这个方向最值得研究的“前沿”
你现在有 BW DCU + 大模型训练经验。
我建议你重点研究:
1. KV Cache Quantization
这是现在最火的。
因为:
- 长上下文真正瓶颈不是 weights
- 而是 KV cache
研究:
- KV4
- KV8
- FP8 KV cache
2. FP8 Training
未来主流。
研究:
- Transformer Engine
- MXFP4
- Hopper FP8
3. MoE Quantization
DeepSeek / Mixtral 必备。
难点:
- router
- expert imbalance
- activation spikes
4. Quantization-aware Finetuning(QAT)
你已经在做 SFT 了。
下一步:
- GPTQ + QAT
- QLoRA + AWQ
- low-bit finetuning
这才是真正实战。
六、我建议你的学习路线(非常适合你)
第一阶段(1周)
理解:
- INT8
- INT4
- FP16
- scale
- zero point
- symmetric/asymmetric
第二阶段(1周)
精读:
- GPTQ
- AWQ
- QLoRA
第三阶段(2周)
源码:
- llama.cpp quantize.c
- bitsandbytes
- AutoAWQ
第四阶段(长期)
研究:
- CUDA kernel
- GEMM
- fused dequant
- Tensor Core
七、真正值得收藏的“论文清单”
建议你建立 Zotero。
核心必读:
| 类型 | 论文 |
|---|---|
| 基础 | GPTQ |
| 基础 | AWQ |
| 基础 | SmoothQuant |
| 微调 | QLoRA |
| 超低bit | BitNet |
| 综述 | Low-bit LLM Survey 2025 |
| 硬件 | Quantization in LLM 2026 |
| 工程 | TensorRT-LLM |
| 推理 | vLLM |
| CPU | llama.cpp |
八、如果你愿意,我还能继续帮你整理:
- 「LLM量化完整知识树」
- 「GPTQ/AWQ源码解析」
- 「GGUF量化格式详解」
- 「NF4为什么有效」
- 「INT4 vs FP4 vs NF4」
- 「Qwen/DeepSeek量化最佳实践」
- 「DCU/BW上如何做量化推理」
- 「量化 CUDA Kernel 入门」
- 「量化 benchmark 指标体系」
- 「目前最先进的 2bit/1bit LLM 路线」
研究大语言模型(LLM)的量化技术是一个兼具理论深度和极高工程价值的方向,尤其是在处理百亿参数级别的模型、优化显存占用以及提升推理与微调效率时,量化是不可或缺的核心技术。
由于大模型量化技术发展极其迅速,传统的纸质图书往往存在滞后性,因此该领域最前沿、最具参考价值的资料主要集中在顶级会议的论文、最新发布的综述以及优秀的开源系统文档中。
以下为你整理的模型量化技术研究路径及核心文献集合:
1. 权威综述论文 (Surveys & Reviews)
在深入具体算法前,综述文献能帮你快速建立量化技术的全景知识图谱,理清诸如权重极值(Outliers)、激活值量化、PTQ(训练后量化)与 QAT(量化感知训练)等核心概念。
-
A Survey of Quantization in LLM: Unlocking Potential Hardware Efficiency (JCST 2026)
-
核心内容: 最新发布的全面综述,详细梳理了从预训练到推理阶段的量化技术,并特别探讨了如何在不同芯片架构上生成高效的低精度算子(Kernels)。
-
A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms (ArXiv 2024)
-
核心内容: 从基础概念、系统实现和算法策略三个维度全面剖析了低比特(Low-bit)大模型量化,重点涵盖了降低内存使用和计算需求的底层原理。
-
A Survey of Quantization Methods for Efficient Neural Network Inference (Gholami et al., 2021)
-
核心内容: 这篇是神经网络量化领域的经典“教科书级”综述。虽然早于 LLM 爆发期,但其中关于对称/非对称量化、量化误差分析等基础数学理论依然是现在研究的基石。
2. 必读的里程碑论文 (Milestone Papers)
以下论文代表了目前工业界和学术界在量化方向的几次关键技术突破:
训练后量化 (PTQ - Post-Training Quantization)
这是目前部署端最常用的技术,重点在于如何在不重新训练大模型的前提下,控制精度损失。
-
GPTQ: Accurate Quantization for Generative Pre-trained Transformers (ICLR 2023)
-
贡献: 基于近似二阶信息(Hessian 矩阵)的高效权重压缩算法,极大推动了 LLM 在单张消费级显卡上的部署。
-
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (MLSys 2024)
-
贡献: 发现并非所有权重都同等重要,提出只保留对激活值影响最大的 1% 权重为 FP16,其余进行低比特量化的策略,工程落地极广。
-
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models (ICML 2023)
-
贡献: 针对大模型激活值存在极大离群点(Outliers)难以量化的问题,巧妙地提出将激活值的量化难度转移到权重上,实现了高效的 W8A8(权重8-bit,激活8-bit)量化。
量化感知训练与高效微调 (QAT & PEFT)
如果你在进行特定领域的词表扩充或模型微调,量化与 LoRA 结合的技术绝对是重中之重。
-
QLoRA: Efficient Finetuning of Quantized LLMs (NeurIPS 2023)
-
贡献: 引入了 4-bit NormalFloat (NF4) 数据类型和双重量化机制,使得在冻结的 4-bit 基础模型上外挂 LoRA 适配器进行微调成为可能,是目前低资源微调的主流方案。
-
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models (2023)
-
贡献: 探讨了在较低比特下,通过知识蒸馏在无源数据(Data-free)情况下进行量化感知训练的框架。
前沿极低比特架构 (Extreme Low-Bit)
- BitNet: Scaling 1-bit Transformers for Large Language Models (2023)
- 贡献: 探索了 1-bit(三值化)网络在 LLM 时代的扩展定律(Scaling Law),这代表了未来彻底摆脱传统矩阵乘法(乘加运算转为纯加法)的发展方向。
3. 图书与系统实践资源
虽然专门针对“大模型量化”的实体书较少,但以下系统开源书籍和源码库是你将其转化为工程代码的最佳读物:
-
图书推荐:
-
《Dive into Deep Learning》 (动手学深度学习):虽然是全面性教材,但其对于底层硬件计算机制的补充章节非常适合打基础。
-
《Deep Learning for Computer Architecture》:适合了解底层硬件(如 GPU/TPU 的 Tensor Core)是如何处理混合精度和量化指令的。
-
核心开源库与系统文档: 相比于看书,研究顶级开源库的底层算子(CUDA 级实现)是进阶的最佳捷径。
-
BitsAndBytes (Tim Dettmers 开发):重点研究其 NF4 量化和 8-bit 优化器的底层 C++ / CUDA 实现。
-
AutoGPTQ / vLLM:研究这些推理框架中是如何对量化后的张量进行打包(Packing)和解包(Unpacking)来压榨显存带宽的。
-
llama.cpp:经典的 GGUF 格式实现,其代码库是学习纯 C/C++ 环境下 CPU/GPU 混合推理量化计算的宝库。“
整理好了,以下是三个方向的完整资料体系,附带清晰的学习路径。以上是三个方向的完整资料汇总,补充几点重点说明:
方向一(LLM 量化) 是目前最活跃的领域。建议先读 GPTQ → AWQ 这条线掌握 PTQ 主流思路,再看 QuaRot / QuIP# 了解旋转变换这一 2024 年的核心突破——QuaRot 通过 Hadamard 变换重新分布激活异常值,QuIP/QuIP# 则基于不相干原理用随机正交矩阵使最坏情况量化误差最小化。
方向二(硬件加速) 建议从 NVIDIA 的 INT8 官方文档入手,再扩展到 FPGA。最新综述统一梳理了 GPU/TPU/NPU/FPGA/ASIC 全平台的加速机制,涵盖脉动阵列、量化感知数据路径、高带宽内存和编译调度等核心架构思想,并特别关注 LLM 长上下文推理中的 KV 缓存管理问题。
方向三(边缘部署) 最重要的格式是 GGUF。Q4_0 四比特分组量化已成为端侧部署的主流格式,因其兼容 GGUF、MLC-LLM 和 MLX 等运行时;llama.cpp 提供跨平台的 GGUF 推理支持。推理阶段的两个核心瓶颈:prefill 阶段是计算密集型,与提示词长度成正比;decode 阶段是内存带宽密集型,吞吐由 KV 缓存访问速度决定。
研究大语言模型(LLM)的量化技术是一个兼具理论深度和极高工程价值的方向,尤其是在处理百亿参数级别的模型、优化显存占用以及提升推理与微调效率时,量化是不可或缺的核心技术。
由于大模型量化技术发展极其迅速,传统的纸质图书往往存在滞后性,因此该领域最前沿、最具参考价值的资料主要集中在顶级会议的论文、最新发布的综述以及优秀的开源系统文档中。
以下为你整理的模型量化技术研究路径及核心文献集合:
1. 权威综述论文 (Surveys & Reviews)
在深入具体算法前,综述文献能帮你快速建立量化技术的全景知识图谱,理清诸如权重极值(Outliers)、激活值量化、PTQ(训练后量化)与 QAT(量化感知训练)等核心概念。
-
A Survey of Quantization in LLM: Unlocking Potential Hardware Efficiency (JCST 2026)
-
核心内容: 最新发布的全面综述,详细梳理了从预训练到推理阶段的量化技术,并特别探讨了如何在不同芯片架构上生成高效的低精度算子(Kernels)。
-
A Survey of Low-bit Large Language Models: Basics, Systems, and Algorithms (ArXiv 2024)
-
核心内容: 从基础概念、系统实现和算法策略三个维度全面剖析了低比特(Low-bit)大模型量化,重点涵盖了降低内存使用和计算需求的底层原理。
-
A Survey of Quantization Methods for Efficient Neural Network Inference (Gholami et al., 2021)
-
核心内容: 这篇是神经网络量化领域的经典“教科书级”综述。虽然早于 LLM 爆发期,但其中关于对称/非对称量化、量化误差分析等基础数学理论依然是现在研究的基石。
2. 必读的里程碑论文 (Milestone Papers)
以下论文代表了目前工业界和学术界在量化方向的几次关键技术突破:
训练后量化 (PTQ - Post-Training Quantization)
这是目前部署端最常用的技术,重点在于如何在不重新训练大模型的前提下,控制精度损失。
-
GPTQ: Accurate Quantization for Generative Pre-trained Transformers (ICLR 2023)
-
贡献: 基于近似二阶信息(Hessian 矩阵)的高效权重压缩算法,极大推动了 LLM 在单张消费级显卡上的部署。
-
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration (MLSys 2024)
-
贡献: 发现并非所有权重都同等重要,提出只保留对激活值影响最大的 1% 权重为 FP16,其余进行低比特量化的策略,工程落地极广。
-
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models (ICML 2023)
-
贡献: 针对大模型激活值存在极大离群点(Outliers)难以量化的问题,巧妙地提出将激活值的量化难度转移到权重上,实现了高效的 W8A8(权重8-bit,激活8-bit)量化。
量化感知训练与高效微调 (QAT & PEFT)
如果你在进行特定领域的词表扩充或模型微调,量化与 LoRA 结合的技术绝对是重中之重。
-
QLoRA: Efficient Finetuning of Quantized LLMs (NeurIPS 2023)
-
贡献: 引入了 4-bit NormalFloat (NF4) 数据类型和双重量化机制,使得在冻结的 4-bit 基础模型上外挂 LoRA 适配器进行微调成为可能,是目前低资源微调的主流方案。
-
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models (2023)
-
贡献: 探讨了在较低比特下,通过知识蒸馏在无源数据(Data-free)情况下进行量化感知训练的框架。
前沿极低比特架构 (Extreme Low-Bit)
- BitNet: Scaling 1-bit Transformers for Large Language Models (2023)
- 贡献: 探索了 1-bit(三值化)网络在 LLM 时代的扩展定律(Scaling Law),这代表了未来彻底摆脱传统矩阵乘法(乘加运算转为纯加法)的发展方向。
3. 图书与系统实践资源
虽然专门针对“大模型量化”的实体书较少,但以下系统开源书籍和源码库是你将其转化为工程代码的最佳读物:
-
图书推荐:
-
《Dive into Deep Learning》 (动手学深度学习):虽然是全面性教材,但其对于底层硬件计算机制的补充章节非常适合打基础。
-
《Deep Learning for Computer Architecture》:适合了解底层硬件(如 GPU/TPU 的 Tensor Core)是如何处理混合精度和量化指令的。
-
核心开源库与系统文档: 相比于看书,研究顶级开源库的底层算子(CUDA 级实现)是进阶的最佳捷径。
-
BitsAndBytes (Tim Dettmers 开发):重点研究其 NF4 量化和 8-bit 优化器的底层 C++ / CUDA 实现。
-
AutoGPTQ / vLLM:研究这些推理框架中是如何对量化后的张量进行打包(Packing)和解包(Unpacking)来压榨显存带宽的。
-
llama.cpp:经典的 GGUF 格式实现,其代码库是学习纯 C/C++ 环境下 CPU/GPU 混合推理量化计算的宝库。
以下是模型量化技术四大细分方向的专题论文与资源梳理,按 KV Cache 量化 → 扩散模型量化 → 二值神经网络 → 硬件协同设计 展开。
一、KV Cache 量化 (LLM 推理内存瓶颈的核心解法)
1.1 必读综述
“A Survey on Large Language Model Acceleration based on KV Cache Management”
Haoyang Li et al., arXiv:2412.19442, 2024-2025
- 目前最系统的 KV Cache 管理综述,将优化策略分为 Token 级(选择/量化/合并)、模型级(架构改进)和系统级(调度/内存管理),并整理了完整的论文列表。
1.2 经典与前沿论文
| 论文 | 年份/会议 | 核心贡献 |
|---|---|---|
| KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization | 2024 (NeurIPS) | 提出 Per-Channel Key 量化、Pre-RoPE 量化、非均匀数据类型与 Dense-and-Sparse 分解,实现 3-bit 下 <0.1 的困惑度损失,单卡支持 1M 上下文、8 卡支持 10M 上下文。 |
| KIVI: A Tuning-Free Asymmetric 2-bit Quantization for KV Cache | 2024 (ICML) | 无需微调的 2-bit 非对称 KV Cache 量化,逐通道缩放,显著降低内存占用。 |
| Atom / OServe | 2024 | 专为 serving 场景设计的量化流水线,利用 KV Cache 压缩提升整体吞吐。 |
| SnapKV | 2024 (NeurIPS) | 通过 prefill 阶段的 attention 模式预测重要 token,减少 KV Cache 存储压力(与量化正交)。 |
| H2O / StreamingLLM | 2023-2024 | 基于 attention sink 与滑动窗口的 token 淘汰策略,减少 KV Cache 长度。 |
1.3 技术要点
KV Cache 量化与权重量化是解耦的:即使权重保持 FP16,仅量化 KV Cache 就能在长上下文场景下显著降低内存。当前主流方案分为:
- PTQ 路线:KVQuant、KIVI(无需重训,校准即可)
- Token 淘汰 + 量化联合:如 SnapKV + KIVI,先压缩序列长度再降低位宽
二、扩散模型量化 (Diffusion Model Quantization)
2.1 必读综述
“Diffusion Model Quantization: A Review”
Qian Zeng et al., arXiv:2505.05215, 2025
- 扩散模型量化领域首篇系统性综述,覆盖 U-Net 与 DiT (Diffusion Transformer) 架构,从 PTQ/QAT、时间步动态量化、误差分析到基准测试进行全面梳理,并开源了对比结果与代码。
2.2 奠基与前沿论文
A. 训练后量化 (PTQ) —— 工业部署首选
| 论文 | 年份 | 核心贡献 |
|---|---|---|
| PTQ4DM (Shang et al.) | 2023 (CVPR) | 扩散模型量化开山之作,提出基于正态分布的时间步校准策略,实现 8-bit 量化。 |
| Q-Diffusion | 2023 | 时间步感知校准 + Shortcut 分裂量化,针对 U-Net 的跳跃连接优化。 |
| PTQD (He et al.) | 2024 (NeurIPS) | 将量化噪声解耦为“相关噪声”与“残差噪声”并分别修正,降低多步去噪的误差累积。 |
| TFMQ-DM | 2024 (CVPR) | 时序特征保持量化,重建时间嵌入与投影层防止过拟合。 |
| Q-DiT / PTQ4DiT | 2024 | 针对 Diffusion Transformer (DiT) 的 PTQ 方法,适应其独特的激活分布。 |
| DGQ / DMQ | 2024-2025 | 分布感知分组量化 / 异常值 dissecting,解决扩散模型激活中的极端 outlier 问题。 |
B. 量化感知训练 (QAT) —— 极限低比特
| 论文 | 年份 | 核心贡献 |
|---|---|---|
| EfficientDM (He et al.) | 2023 (ICLR) | 提出 QALoRA,用低秩适配器进行量化感知微调,实现 4-bit 权重量化且性能接近全精度。 |
| QuEST | 2024 | 高效选择性微调,仅对敏感层(如前馈层)进行低秩微调,4-bit 下显著优于全模型 QAT。 |
| BitsFusion | 2024 | 1.99-bit 混合精度权重量化,通过大量训练实现 Stable Diffusion 的极限压缩。 |
| SVDQuant (Li et al.) | 2024 | 用 16-bit 并行低秩分支吸收异常值,实现 4-bit 扩散模型无损量化。 |
| BinaryDM / BiDM | 2024 | 二值化扩散模型,通过蒸馏与精细量化器设计在 1-bit 下保持生成能力。 |
2.3 扩散模型量化的独特挑战
与 LLM 不同,扩散模型的难点在于:
- 时间步异质性:不同 timestep 的激活分布差异巨大,需动态或分组量化参数
- 多步误差累积:量化噪声在去噪迭代中放大,需噪声修正(如 PTQD)
- Shortcut 敏感:U-Net 的跳跃连接对量化误差极度敏感,需特殊处理
三、二值神经网络 (Binary Neural Networks, BNN)
二值化是量化的极端形式(1-bit),权重/激活仅为 {−1, +1},可用 XNOR + popcount 替代乘法。
3.1 奠基性工作 (必读)
| 论文 | 年份 | 核心贡献 |
|---|---|---|
| BinaryConnect (Courbariaux et al.) | 2015 | 首次系统提出随机二值化训练,权重在前向/反向传播中为 1-bit,梯度用 STE 近似。 |
| BNN / Binarized Neural Network (Hubara et al.) | 2016 | 将权重与激活同时二值化,实现 32× 压缩与约 7× 推理加速,但 ImageNet 精度损失较大。 |
| XNOR-Net (Rastegari et al.) | 2016 | 引入实数缩放因子 α 逼近浮点权重,缓解纯二值化的精度崩溃,成为 BNN 标准范式。 |
| DoReFa-Net (Zhou et al.) | 2016 | 将权重、激活、梯度均量化到低比特(不限于 1-bit),支持训练阶段加速。 |
3.2 精度恢复与架构改进
| 论文 | 年份 | 核心贡献 |
|---|---|---|
| ABC-Net | 2017 | 用多个二值权重基函数的线性组合逼近浮点权重,减少信息损失。 |
| IR-Net (Qin et al.) | 2020 | 最大化量化参数的信息熵并最小化量化误差,改善前向/反向信息流。 |
| ReActNet | 2020 | 改进 BNN 的激活函数与梯度估计,在 ImageNet 上首次让 BNN 接近全精度 ResNet 精度。 |
| BNN+ | 2019 | 提出 sign 函数的增强导数近似与正则化策略,优化二值权重学习。 |
| FBI-LLM | 2024 | 首次从零训练完全二值化的大语言模型(1-bit 权重 + 1-bit 激活),通过自回归蒸馏实现可接受的 perplexity。 |
3.3 学习路径建议
- 先读 BinaryConnect → BNN → XNOR-Net,理解 STE 与缩放因子
- 再读 ReActNet / IR-Net,理解现代 BNN 精度恢复技巧
- 最后关注 FBI-LLM,看 BNN 如何扩展到 LLM 时代
四、量化硬件协同设计 (Hardware-Software Co-design)
量化算法的收益最终取决于硬件是否支持对应的低精度运算。软硬件协同设计强调:算法压缩策略必须与数据流、存储层次、指令集联合优化。
4.1 核心思想与经典框架
| 工作 | 年份 | 核心贡献 |
|---|---|---|
| Eyeriss (Chen et al., MIT) | 2016 | 早期 CNN 加速器代表作,提出 Row-Stationary 数据流,为后续量化加速器奠定数据复用基础 |
| Bit Fusion (Sharma et al.) | 2018 | 支持动态精度缩放(2-bit ~ 16-bit)的 FPGA 加速器,根据每层敏感度灵活选择位宽 |
| Tomato 框架 (剑桥大学博士论文) | 2023 | 自动生成 FPGA 多精度、多算法硬件加速器,每层可采用不同量化策略,ImageNet 分类达 3000+ FPS,延迟仅 0.32ms。 |
| VAQF | 2022-2023 | 将软件量化方案直接映射到 FPGA 加速器,通过 Vivado HLS 自动生成比特流,实现软硬件量化策略一致。 |
4.2 面向 Transformer / ViT 的协同设计
| 工作 | 年份 | 核心贡献 |
|---|---|---|
| ViTCoD / SOLE | 2022-2023 | 针对 ViT 的 ASIC 加速器,通过软硬件协同设计处理 Attention 与 LayerNorm,支持量化推理。 |
| HeatViT | 2023 | 动态 token 选择 + 分层加载到片上缓存,在 GEMM 引擎前减少冗余计算,配合量化降低带宽压力。 |
| Auto-ViT Acc | 2023 | FPGA 资源利用建模 + 量化感知性能分析,自动搜索最优分块与并行策略。 |
| PAQ (极坐标形式感知量化) | 2023 (MICRO) | 针对复值神经网络 (CVNN) 的软硬件协同设计,利用极坐标量化实现 62.5% 数据压缩,同时设计专用加速器支持该非均匀量化格式。 |
4.3 面向 LLM Serving 的硬件设计趋势
根据最新硬件综述,LLM 推理加速器的设计正从“峰值算力导向”转向“内存-带宽-量化协同”:
- KV Cache 管理硬件化:如 vLLM 的 PagedAttention 思想向硬件延伸,支持非连续 KV Cache 块
- 低精度推理原生支持:NVIDIA H100 的 FP8、TPU v5p 的低精度脉动阵列,要求量化算法与硬件数据类型严格对齐
- 存内/近存计算:ISAAC、PRIME 等模拟加速器适合权重固定的量化推理,但需与数字处理器异构集成
4.4 关键学习资源
- 博士论文:“Efficient Neural Networks via Hardware-Software Co-design” (剑桥大学, 2023),144 页,系统覆盖量化、剪枝、NAS 与 FPGA/ASIC 协同设计。
- 中文专著/论文:“深度神经网络加速器软硬件协同设计方法研究”,从 FPGA 实现角度讨论剪枝与量化的硬件映射。
总结:四方向快速导航
| 方向 | 必读综述 | 标志性算法/硬件 | 当前热点 |
|---|---|---|---|
| KV Cache 量化 | Li et al., arXiv:2412.19442 | KVQuant, KIVI | 3-bit 以下、长上下文 (1M+) |
| 扩散模型量化 | Zeng et al., arXiv:2505.05215 | PTQ4DM, EfficientDM, BitsFusion | DiT 量化、视频扩散量化 |
| 二值神经网络 | 无专门综述,从 BinaryConnect 读起 | XNOR-Net, ReActNet, FBI-LLM | BNN for LLM、1.58-bit (BitNet) |
| 硬件协同设计 | 博士论文 / ViT Edge Survey | Tomato, VAQF, Bit Fusion | LLM Serving 加速器、FP8/INT4 原生支持 |
如需某个方向的代码仓库整理或具体算法推导(如 KVQuant 的 non-uniform datatype 设计、PTQD 的噪声解耦公式),可以继续深入。
模型量化配套开源代码仓库清单
按技术方向分类,附核心用途、适配场景,可直接克隆运行
一、通用量化框架(CNN/Transformer通用)
-
pytorch-quantization
地址:https://github.com/NVIDIA/pytorch-quantization
用途:英伟达官方PyTorch量化库,支持PTQ/QAT,适配TensorRT部署 -
torchao
地址:https://github.com/pytorch/ao
用途:PyTorch官方优化工具集,轻量化量化、混合精度快速落地 -
NNI Quantizer
地址:https://github.com/microsoft/nni
用途:自动量化调优,支持层粒度比特分配、精度速度权衡 -
Tengine
地址:https://github.com/OAID/Tengine
用途:端侧轻量化量化,适配嵌入式设备INT8推理
二、LLM主流低比特量化专项仓库
-
GPTQ
地址:https://github.com/IST-DASLab/gptq
用途:经典4比特量化,适配Llama、Qwen、Mistral系列模型 -
AWQ
地址:https://github.com/mit-han-lab/llm-awq
用途:激活感知量化,异常值优化,推理速度优于GPTQ -
SmoothQuant
地址:https://github.com/mit-han-lab/smoothquant
用途:权重激活平滑量化,大幅降低低比特精度损耗 -
OmniQuant
地址:https://github.com/OpenSparseLLM/OmniQuant
用途:全链路量化,支持权重/激活/KV Cache联合压缩
三、一站式大模型推理部署框架(集成多种量化)
-
vLLM
地址:https://github.com/vllm-project/vllm
用途:集成GPTQ/AWQ/SmoothQuant,高吞吐LLM服务部署 -
Text Generation Inference
地址:https://github.com/huggingface/text-generation-inference
用途:HuggingFace官方部署工具,开箱即用各类量化模型 -
llama.cpp
地址:https://github.com/ggerganov/llama.cpp
用途:CPU端极致低比特量化,2/3/4bit本地离线推理
四、二值/三值量化、特殊量化算法
-
BinaryNet
地址:https://github.com/MatthieuCourbariaux/BinaryNet
用途:二值神经网络原始实现,入门极致低比特原理 -
LQ-Nets
地址:https://github.com/zhouhan0126/LQ-Nets
用途:可学习量化网络,非均匀量化经典实现
五、论文汇总&学习教程仓库
-
Awesome-Quantization-Papers
地址:https://github.com/Zhen-Dong/Awesome-Quantization-Papers
用途:论文持续收录,分类检索最新研究成果 -
model-compression-tutorial
地址:https://github.com/microsoft/ModelCompressionTutorial
用途:量化、剪枝、蒸馏配套教程与实操案例
实操学习顺序参考
- 先用torchao/NVIDIA量化库吃透INT8基础量化逻辑
- 上手GPTQ/AWQ,完成LLM4比特量化复现
- 借助vLLM/llama.cpp测试量化后推理性能效果
- 研读二值量化、OmniQuant进阶方案做创新拓展
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)