一、引言:为什么量化是AI落地的末端环节

2023年,GPT-4的参数量传闻超过1.8万亿;2024年,Llama 3.1 405B开源;2025年,Qwen3-VL-2B试图在手机上运行多模态推理。模型规模的指数级增长与硬件资源的线性增长之间,横亘着一道名为推理成本的鸿沟。

量化(Quantization)的本质,是用信息论的视角重新审视神经网络:我们真的需要32位浮点数来表示每一个权重吗?一个经过预训练的Transformer,其权重分布往往呈现出强烈的结构性——大部分参数集中在零附近,少数"显著权重"承载着关键语义。量化要做的,就是在最小化信息损失的前提下,用更少的比特编码这些参数。

但这绝非简单的"四舍五入"。从GPTQ的Hessian逆矩阵补偿,到TensorRT的Q/DQ图融合,再到GGUF的"量化的量化"——这条技术谱系背后,是编译器理论、数值分析、硬件架构与机器学习的多学科交叉。

本文将带你穿越这条技术谱系,从大语言模型(LLM)计算机视觉(CV)模型,再到2026年最新突破,构建一幅完整的量化压缩全景图。

二、量化基础:信息论视角与工程实践

2.1 浮点表示与量化误差

IEEE 754单精度浮点数(FP32)用32比特编码:1位符号、8位指数、23位尾数。对于神经网络权重,这种表示是严重过剩的。量化将其映射到低比特整数空间:

2.2 静态量化 vs 动态量化 vs 训练感知量化

维度

静态量化 (PTQ)

动态量化

训练感知量化 (QAT)

Scale确定

校准数据集预计算

运行时动态计算

训练时学习

是否需要训练

是(微调)

延迟

低(无运行时开销)

高(需统计范围)

精度

中高

最高

适用场景

生产部署

快速原型

精度敏感场景

2.3 量化粒度:从张量到通道到块

粒度模式

适用对象

Scale计算

精度

硬件友好度

Per-tensor

激活值

单一标量

Per-channel

权重(Conv/FC)

沿输出通道广播

Per-token

激活(LLM动态)

逐token计算

Block

权重(INT4/FP4)

1D块共享

三、大语言模型(LLM)量化方法谱系

LLM的量化面临一个独特挑战:激活异常值(Activation Outliers)。MIT的研究发现,Transformer中少数通道的激活幅度比正常值大100-300倍,这些"离群值"像钉子户一样占据着动态范围,迫使其他正常值被压缩到极小的表示空间。

上图展示了不同量化方法在压缩率 vs 精度损失平面上的分布。可以清晰看到三个区域:

  • 生产就绪区(Loss < 1.0):FP16、INT8 SmoothQuant、AWQ W4、GGUF Q6_K、SpecQuant W4A4、CoQuant W4A4

  • 可接受区(1.0 < Loss < 3.0):GPTQ W4、QuaRot W4A4、AQLM W2、DASH-Q W2、MR-GPTQ FP4

  • 实验区(Loss > 3.0):GGUF Q2_K、FP4 E2M1、NanoQuant ~0.8bit

3.1 后训练量化(PTQ):无需重新训练的压缩艺术

GPTQ / GPTQ-M:Hessian逆的误差补偿

GPTQ(Group-wise Precision Tuning Quantization)的核心洞察是:量化误差可以通过二阶信息进行局部补偿

对于权重矩阵的每一列 w,GPTQ求解:

GPTQ-M(2025改进版)引入最优分组裁剪阈值,结合2:4结构化稀疏性,实现高达5.3×的GPU推理加速。

论文:Frantar et al., GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers, ICLR 2023

AWQ:激活感知的"保护费"机制

AWQ(Activation-aware Weight Quantization)发现了一个反直觉的事实:仅0.1%-1%的权重通道对模型性能至关重要,且这些"显著权重"可通过激活分布(而非权重分布)来识别。

AWQ不直接保留这些显著权重(硬件不友好),而是通过逐通道缩放保护它们:

论文:Lin et al., AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration, MLSys 2024(Best Paper Award)

AQLM:加法量化的码本革命

AQLM(Additive Quantization of Language Models)将信息检索领域的加法量化(Additive Quantization)引入LLM压缩。其核心是多码本量化(Multi-Codebook Quantization, MCQ)

论文:Egiazarian et al., Extreme Compression of Large Language Models via Additive Quantization, 2024

HQQ:无校准的"闪电战"

HQQ(Half-Quadratic Quantization)基于半二次拆分(Half-Quadratic Splitting)优化,实现完全无需校准数据的量化。通过将量化问题分解为可高效求解的子问题,HQQ将70B模型的量化时间缩短至几分钟——这对于缺乏代表性数据的场景是救命稻草。

论文:Badri & Shaji, Half-Quadratic Quantization of Large Machine Learning Models, 2023

3.2 权重-激活联合量化:解决异常值难题

SmoothQuant:把烫手山芋扔给权重

SmoothQuant的数学优雅性令人叹服。它通过数学等价变换将激活的量化难度迁移到权重:

论文:Xiao et al., SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models, 2022/2023

QuaRot:Hadamard变换的降维打击

QuaRot发现,Transformer中的异常值具有方向性——它们集中在少数特征维度上。通过随机Hadamard变换(正交旋转),QuaRot将异常值"打散"到所有通道:

这种旋转保持内积不变(计算不变性),但使激活分布更均匀。QuaRot实现了W4A4KV4(4-bit权重+4-bit激活+4-bit KV Cache),Llama2-7B上perplexity损失仅0.63。

论文:Ashkboos et al., QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs, NeurIPS 2024

SpinQuant:学习最优旋转

SpinQuant在QuaRot基础上更进一步:既然不同随机旋转性能差异可达13个百分点,为什么不学习最优旋转矩阵?通过Cayley SGD在Stiefel流形上优化,SpinQuant的W4A4KV4量化在零样本任务上仅比FP16低2.9分——远超LLM-QAT(差距22分)和SmoothQuant(差距25分)。

论文:Liu et al., SpinQuant: LLM Quantization with Learned Rotations, 2024

3.3 训练感知量化(QAT):精度恢复的最后防线

LLM-QAT / Efficient-QAT

在训练过程中模拟量化前向传播,通过数据无关的知识蒸馏从FP16教师模型指导低比特学生模型。LLM-QAT首次将QAT应用于LLM;Efficient-QAT引入两阶段策略(块级全参数训练 + 端到端量化参数训练)降低计算成本。

3.4 GGUF/GGML格式生态:CPU推理的基石

GGUF(GGML Unified Format)是llama.cpp生态的基石。其K-quants采用两级层次化量化,堪称"量化中的量化":

Level 1 - Super-Block(如256权重):

  • 存储Super-Scale(FP16)和Min/Max(FP16)

  • 包含8个Sub-Block

Level 2 - Sub-Block(如32权重):

  • 存储Sub-Scale(FP16)

  • 权重以4-bit或5-bit存储,带zero-point

反量化公式:

这种设计的关键洞察是:scale本身也可以被量化。通过两级scale,K-quants在相同位宽下比标准Q4_0/Q4_1获得显著更好的质量——因为super-block级别的scale修正了sub-block之间的系统性偏差。

格式

有效位宽

质量评级

适用场景

Q2_K

~2.6 bit

极端压缩,实验性

Q4_K_M

~4.5 bit

中高

平衡速度与质量

Q5_K_M

~5.5 bit

高质量本地推理

Q6_K

~6.6 bit

极高

接近FP16体验

四、计算机视觉(CV)模型量化与部署框架

CV模型的量化生态与LLM有所不同,更依赖硬件厂商工具链传统PTQ/QAT流程

4.1 TensorRT:显式量化的编译器艺术

TensorRT是NVIDIA GPU上CV模型量化的事实标准。其量化架构围绕显式量化(Explicit Quantization)构建,通过ONNX的Q/DQ节点实现精确控制。

Q/DQ Layer融合规则(核心优化)

TensorRT通过Q/DQ传播实现算子融合:

传播方向

  • Q节点向后传播:尽早将激活量化到INT8

  • DQ节点向前传播:尽量延迟反量化到FP32

  • 约束:仅执行保持算术正确性的变换

典型融合链

原始图:  Input(FP32) → Q → DQ → Conv → ReLU → Q → DQ → Conv → ...            ↓ TensorRT优化后 ↓优化图:  Input(FP32) → Q → [QConvRelu(INT8→INT8)] → Q → [QConv(INT8→INT8)] → ...

融合规则详解

融合模式

输入精度

权重精度

计算精度

输出精度

适用场景

DQ + Conv + ReLU + Q → QConvRelu

INT8

INT8

INT8 Tensor Core

INT8

标准卷积块

DQ + Conv + Q → QConv

INT8

INT8

INT8 Tensor Core

INT8

无ReLU的中间层

DQ + Conv → QConv (INT8→FP32)

INT8

INT8

INT8 Tensor Core

FP32

网络末尾输出层

DQ + MatMul + Q → QMatMul

INT8

INT8

INT8

INT8

Transformer注意力

重要注意事项

  • TensorRT自动处理BN+ReLU融合,官方建议不要在训练框架中手动模拟此融合

  • 精度敏感层避免量化:LayerNorm、Sigmoid、TanH前不插入Q/DQ;GeLU、Softmax、ElementWise可插入Q/DQ

  • PyTorch导出的GEMM权重布局为(K,C)且transB=1,TensorRT会转置,per-channel量化轴为维度0;TensorFlow导出权重为(C,K),量化轴为维度1

校准算法数学原理

TensorRT提供三种校准策略:

(1)MinMax校准

特点

  • 特点:简单快速,但对异常值敏感

  • 适用权重校准推荐

(2)熵校准(Entropy/Entropy2)——默认算法

目标:寻找阈值 T 最小化KL散度

(3)百分位校准

  • 特点:排除极端异常值,适合激活值的长尾分布

多精度支持矩阵(TensorRT 10+)

精度格式

位宽

有效范围

量化模式

硬件要求

关键特性

INT8

8-bit

[-128,127]

显式/隐式

Volta+

最成熟,支持PTQ校准

FP8 E4M3

8-bit

[-448,448]

仅显式

Hopper/Ada+

4指数3尾数,不能与INT8混用

INT4

4-bit

[-8,7]

仅显式

Ampere+

仅WoQ

,2元素/字节打包

FP4 E2M1

4-bit

[-6,6]

仅显式

Blackwell

2指数1尾数,推荐动态量化

TensorRT Model Optimizer:统一优化库

NVIDIA推出的TensorRT Model Optimizernvidia-modelopt)是面向LLM、CV模型的统一优化工具(TensorRT和TensorRT-LLM):

格式

描述

适用场景

Per-Tensor FP8

标准全模型FP8量化

通用推理

FP8 Block-wise WoQ

2D块级权重量化

内存带宽受限

FP8 Per-Channel + Per-Token

逐通道权重+动态逐token激活

LLM高吞吐

NVFP4

默认FP4量化(Blackwell)

极致压缩

INT8 SmoothQuant

W8A8 with SmoothQuant

通用LLM

WA416 (INT4 WoQ)

4-bit权重+FP16激活 with AWQ

边缘部署

W4A8

INT4权重+FP8激活

平衡压缩与速度

4.2 ONNX Runtime与跨平台方案

工具

优势

适用硬件

ONNX Runtime静态量化

跨平台,静态/动态量化

CPU/GPU/ARM

ONNX Runtime动态量化

无需校准数据

CPU

OpenVINO

Intel硬件深度优化

Intel CPU/GPU/FPGA

PyTorch FX Graph Mode

与PyTorch生态无缝集成

CPU/GPU

4.3 移动端量化框架:TFLite、NCNN与生态

TensorFlow Lite:Google的移动量化标准

TensorFlow Lite是Google官方的移动端推理框架,提供完整的量化工具链:

PTQ模式

  • 动态范围量化:仅权重转INT8,激活仍用FP32计算

  • 全整数量化:权重和激活均转INT8,需校准数据集确定scale和zero-point

  • FP16量化:权重转FP16,精度损失小

QAT模式

import tensorflow_model_optimization as tfmot# 在模型中插入FakeQuantize层quantize_model = tfmot.quantization.keras.quantize_modelq_aware_model = quantize_model(model)# 训练时模拟量化效果,使用STE传播梯度q_aware_model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')q_aware_model.fit(x_train, y_train, epochs=5)

关键特性

  • 支持Edge TPU硬件加速

  • 与Android/iOS原生集成

  • 模型大小减少约75%

NCNN:腾讯的高性能移动端推理引擎

NCNN是腾讯开源的无第三方依赖的移动端推理框架,专为ARM CPU优化。

量化流程

  1. 模型优化ncnnoptimize 进行层融合和内存优化

  2. 生成校准表ncnn2table 使用KL散度或ACIQ算法

  3. 量化模型ncnn2int8 将FP32权重转为INT8

校准命令

./ncnn2table mobilenet-opt.param mobilenet-opt.bin imagelist.txt mobilenet.table \mean=[104,117,123]norm=[0.017,0.017,0.017]shape=[224,224,3]pixel=BGR thread=8method=kl

关键特性

  • 支持混合精度推理:在校准表中注释掉某层的scale即可保持FP32

  • 量化层:Conv、DepthwiseConv、InnerProduct、RNN、LSTM、GRU、Embed、Gemm、MultiHeadAttention、SDPA

  • 自动检测INT8权重并使用INT8执行路径

校准算法

  • KL散度:最小化原始分布与量化分布的KL散度(推荐,精度更好)

  • ACIQ(Analytical Clipping for Integer Quantization):基于分析的量化方法

最佳实践

  • 校准数据集应代表实际场景,建议≥5000张图像

  • 预处理参数必须与训练时一致

  • 先尝试全INT8量化,如精度下降明显再考虑混合精度

其他边缘框架

框架

厂商

特点

MNN

阿里巴巴

支持ARM CPU/GPU、Vulkan、OpenCL,INT8/FP16混合精度

MACE

小米

针对骁龙DSP优化,支持Hexagon NN加速

TNN

腾讯

与NCNN互补,专注ARM GPU和NPU加速

Paddle Lite

百度

与飞桨训练框架深度集成,支持华为NPU

五、2026年量化前沿突破

2026年,量化领域迎来了爆发式创新。ICLR、AAAI、EuroMLSys等顶级会议上的新工作,正在重新定义压缩的极限。

5.1 TurboQuant:极坐标量化的KV Cache革命

TurboQuant(ICLR 2026, Google Research)代表了KV Cache压缩的范式转变。它构建了一个数据无关的量化流水线,结合两个关键技术:

PolarQuant(AISTATS 2026):将向量从笛卡尔坐标转换到极坐标系,利用角度信息的低维特性进行压缩。

QJL(Quantized Johnson-Lindenstrauss, AAAI 2025):通过随机投影将高维向量映射到低维空间,同时保持内积近似。

争议:TurboQuant的学术原创性受到质疑。批评者指出其核心思想与早期的向量量化工作存在重叠,且QJL的随机投影理论在LLM长上下文场景下的收敛性证明不够严谨。

5.2 NanoQuant:突破1-Bit下限的Sub-1-Bit量化

NanoQuant(arXiv 2026)是首个支持低于1 bit的PTQ方法,将Llama2-70B压缩至25.8倍——这意味着平均每个权重仅占约0.55 bit。

核心创新:低秩二进制分解

三步优化流程

  1. 误差传播缓解:调整当前块的全精度权重,最小化前面块量化引入的误差

  2. 低秩二进制初始化:通过ADMM和SVID初始化二进制因子

  3. 因子化组件精调:使用STE联合优化连续潜在代理和缩放向量

实验结果:在0.55 bit/weight下,NanoQuant在Llama-2-70B上的WikiText-2 perplexity为9.82,显著优于同压缩比的STBLLM。

5.3 MR-GPTQ:为FP4硬件量身定制的量化算法

MR-GPTQ(Micro-Rotated-GPTQ, ICLR 2026, IST Austria + ETH Zürich)是首个针对微缩放FP4格式(MXFP4和NVFP4)专门优化的PTQ算法。

FP4的挑战

  • NVFP4:小组大小会证明性地抵消传统异常值缓解技术

  • MXFP4:2的幂次scale量化因高诱导误差严重降低精度

MR-GPTQ的解决方案

  • 块级Hadamard变换:在量化前旋转权重矩阵基,使异常值分布到所有通道

  • 格式特定优化:针对FP4的E2M1表示定制量化网格

  • 融合Kernel:推理时将逆变换融合到权重中,在线计算激活的旋转,开销可忽略

性能

  • NVIDIA B200:层级加速3.6×,端到端2.2×

  • RTX 5090:层级加速,端到端

  • MMLU分数与AWQ INT4相当,MXFP4精度接近NVFP4

意义:MR-GPTQ证明FP4不是INT4的自动升级,但通过格式专用方法可以解锁全新的精度-性能权衡前沿。

5.4 DASH-Q:极低比特的稳健性突破

DASH-Q(EuroMLSys 2026, Seoul National University + Hanyang University)解决了Hessian-based PTQ方法在低位宽时的核心问题:采样噪声

问题诊断:GPTQ等方法的非对角Hessian项对校准数据的批次间方差高度敏感,导致低位宽时的交叉通道补偿过拟合。

DASH-Q的解决方案

  • 对角Hessian近似:丢弃噪声敏感的非对角依赖,保留稳定的特征重要性

  • 迭代加权最小二乘:将对角Hessian转化为独立的加权最小二乘问题,每个问题有闭式解

实验结果

  • 在Llama-3.1-8B的2-bit量化下,DASH-Q达到56.52%平均准确率,比OWQ高14.01%,比GPTQ高1.59×

  • 在Qwen3-14B上,2-bit时DASH-Q与QuaRot几乎持平

  • 平均零样本准确率提升7.01%,最高14.01%

5.5 SpecQuant:频域视角的量化新范式

SpecQuant(AAAI 2026, Shanghai Jiao Tong University)从傅里叶频率域重新审视LLM量化,提出了两阶段框架:

Stage 1 - 激活平滑:通过基于缩放的平滑将激活异常值迁移到权重域。

Stage 2 - 通道级低频频谱截断:对每个通道的平滑权重向量进行FFT变换,保留低频分量,抑制高频噪声。

核心洞察:权重在傅里叶域中表现出强烈的低频偏置——大部分能量集中在低频分量,这些分量可以用更高精度保留,而高频残差用低精度量化。

量化策略

  • 低频分量:16-bit高精度

  • 高频残差:4-bit低精度

结果:在LLaMA-3 8B上实现W4A4量化,零样本准确率差距仅1.5%,推理速度提升2倍,内存降低3倍。

5.6 GlowQ:选择性低秩补偿的高效实现

GlowQ(arXiv 2026)解决了低秩校正方法的效率问题。

现有问题:LQER、QERA等方法为每一层插入误差校正模块,增加延迟和内存开销。

GlowQ方案

  • 组共享右因子:为输入共享组缓存单个共享右因子,跨模块复用

  • 选择性应用:GlowQ-S仅在对精度提升最大的层/组应用校正

性能

  • GlowQ:TTFB降低5.6%,吞吐量提升9.6%,WikiText-2 perplexity降低0.17%

  • GlowQ-S:TTFB降低23.4%,吞吐量提升37.4%,精度损失仅0.2%

5.7 CoQuant:联合子空间投影

CoQuant(arXiv 2026)指出现有混合精度方法仅依赖激活统计构建子空间,忽略了线性操作中输出扰动由权重和激活量化噪声联合驱动的本质。

理论贡献:通过建模期望输出误差,CoQuant推导出闭式加权PCA解,平衡权重和激活的协方差以选择最优高精度子空间。

实验:在Llama-3.2和Qwen2.5上,CoQuant在WikiText perplexity和零样本推理准确率上均优于强PTQ基线。

5.8 FLRQ:灵活低秩选择的快速算法

FLRQ(AAAI 2026)解决了低秩PTQ中秩选择的计算瓶颈。

核心组件

  • R1-FLR:使用R1-Sketch(高斯投影)实现快速低秩近似,支持逐层异常值感知的秩提取

  • BLC(Best Low-rank Approximation under Clipping):通过迭代方法最小化缩放和裁剪策略下的低秩量化误差

FLRQ在量化质量和算法效率上均达到SOTA。

六、方法对比与选型决策

量化决策树

                        Model Type?
                       /          \
                LLM/VLM          CV/ViT
                   |                |
            Deployment Env?    Target Hardware?
           /           \       /           \
        CPU/Edge     GPU/Cloud  NVIDIA     Cross-Platform
           |            |         |            |
        GGUF         TensorRT  TensorRT    ONNX Runtime
        (Q4_K_M)     -LLM      (INT8/FP8)  (Static/Dynamic)
        llama.cpp    (FP8/     PTQ+Calib   OpenVINO/TFLite
        ollama       INT4/FP4)              ARM/Intel/AMD
                     vLLM/
                     Triton
        |                              |
   Precision Req?                 Quantization
   /           \                   Strategy?
High(Loss<0.5)  Acceptable      /           \
    |              |           PTQ(Fast)    QAT(Best)
  AWQ/GPTQ      QuaRot/HQQ         |            |
  (W4/W8)       (W4A4/W4A8)   Entropy      FakeQuant
  SmoothQuant   AQLM W2-W3    Calibration   + STE
  SpinQuant     Extreme        (MinMax/       Fine-tune
                compression    Percentile)    recovery
                               Batch≥16      Export ONNX
                                             Q/DQ

6.1 大模型量化方法对比

方法

类型

位宽

校准数据

核心机制

适用场景

代表论文

GPTQ

PTQ

W3-4

需要

Hessian逆补偿误差

大模型权重压缩

ICLR 2023

AWQ

PTQ

W4

少量(16seq)

激活感知逐通道缩放

边缘部署/多模态

MLSys 2024

AQLM

PTQ

W2-3

需要

加法量化+码本学习

极端压缩

2024

HQQ

PTQ

W2-8

无需

半二次拆分优化

快速无校准量化

2023

SmoothQuant

PTQ

W8A8

需要

异常值平滑迁移

高吞吐推理

2022/2023

QuaRot

PTQ

W4A4KV4

需要

Hadamard旋转变换

全栈4-bit推理

NeurIPS 2024

SpinQuant

PTQ

W4A4KV4

需要

学习最优旋转矩阵

高精度低比特

2024

NanoQuant

PTQ

<1bit

需要

低秩二进制分解

极致压缩

arXiv 2026

MR-GPTQ

PTQ

FP4

需要

块级Hadamard for FP4

FP4硬件优化

ICLR 2026

DASH-Q

PTQ

W2

需要

对角Hessian近似

极低比特稳健性

EuroMLSys 2026

SpecQuant

PTQ

W4A4

需要

傅里叶频域分解

频域视角量化

AAAI 2026

GlowQ

PTQ

W4

需要

组共享低秩补偿

效率优先场景

arXiv 2026

CoQuant

PTQ

W4A4

需要

联合子空间投影

协方差建模

arXiv 2026

FLRQ

PTQ

W4

需要

R1-Sketch快速秩提取

灵活低秩选择

AAAI 2026

GGUF/GGML

格式生态

W2-8

量化时决定

分块均匀/K-quant

CPU本地推理

llama.cpp

EETQ

PTQ

W8

需要

快速权重量化

快速部署

NVIDIA

6.2 CV模型量化方法对比

方法/工具

量化类型

位宽支持

校准算法

硬件支持

适用模型

核心优势

TensorRT PTQ

PTQ(校准)

INT8/FP8/FP16/INT4/FP4

Entropy/MinMax/Percentile

NVIDIA GPU

CNN/Transformer/LLM

极致性能,层融合,Tensor Core

TensorRT QAT

QAT(训练)

INT8/FP8/FP16

Fake Quantization(STE)

NVIDIA GPU

CNN/Transformer/LLM

精度恢复,训练感知

ONNX Runtime静态量化

PTQ

INT8

MinMax/Entropy/Percentile

CPU/GPU/ARM

CNN/ViT

跨平台,易部署

ONNX Runtime动态量化

动态PTQ

INT8

运行时动态计算

CPU

CNN/ViT

无需校准数据

TensorFlow Lite

PTQ/QAT

INT8/FP16

代表性数据集

CPU/ARM/Edge TPU

MobileNet/EfficientNet

移动端优化,量化-aware训练

NCNN

PTQ

INT8

KL散度/ACIQ

ARM/x86

CNN/ViT

高性能移动端,无第三方依赖

OpenVINO

PTQ

INT8/FP16

Default/AccuracyAware

Intel CPU/GPU/FPGA

ResNet/YOLO

Intel硬件深度优化

PyTorch FX Graph Mode

PTQ/QAT

INT8/FP16

MinMax/Entropy

CPU/GPU

ResNet/ViT

与PyTorch生态无缝集成

6.3 选型决策树

LLM场景

CPU/边缘部署 → GGUF/GGML(K-quants)

  • Q4_K_M:平衡速度与质量

  • Q5_K_M:高质量本地推理

  • llama.cpp / ollama生态

GPU/云端部署 → TensorRT-LLM / vLLM

  • FP8(Hopper/Ada+):最佳性能

  • INT8 SmoothQuant:通用高吞吐

  • INT4 WoQ:内存受限场景

精度要求极高 → AWQ / SpinQuant / CoQuant

  • AWQ W4:边缘部署首选

  • SpinQuant W4A4KV4:学习式旋转,精度损失<3分

  • CoQuant W4A4:联合协方差建模

快速无校准 → HQQ

  • 70B模型几分钟完成量化

  • 适合缺乏代表性数据的场景

极致压缩 → NanoQuant / AQLM

  • NanoQuant <1bit:25.8×压缩

  • AQLM W2-W3:码本学习

CV场景

NVIDIA GPU → TensorRT

  • 显式Q/DQ,PTQ+熵校准

  • INT8/FP8/FP4多精度支持

  • 层融合+Tensor Core极致优化

跨平台 → ONNX Runtime

  • 静态量化(MinMax/Entropy/Percentile)

  • 动态量化(无需校准)

  • OpenVINO / TFLite作为替代

移动端 → TFLite / NCNN

  • TFLite:Google生态,Edge TPU加速

  • NCNN:腾讯开源,ARM NEON优化,无第三方依赖

精度优先 → QAT

  • PyTorch/TensorFlow FakeQuant + STE

  • 微调恢复精度

  • 导出ONNX Q/DQ → TensorRT免校准

七、未来趋势与总结

7.1 2026年五大趋势

  1. 位宽下限被击穿:NanoQuant证明通过低秩分解,有效位宽可以低于1 bit

  2. 硬件-算法协同设计:MR-GPTQ为FP4定制,TurboQuant为KV Cache定制——通用算法让位于专用优化

  3. 噪声vs信号的哲学:DASH-Q通过对角Hessian丢弃噪声,SpecQuant通过频域滤波保留信号——知道丢弃什么比知道保留什么更重要

  4. 效率与精度并重:GlowQ和FLRQ证明,量化不仅是精度问题,更是系统效率问题(TTFB、吞吐量)

  5. 移动端生态成熟:TFLite和NCNN等框架的量化工具链已足够成熟,算法创新正在快速下沉到工程实践

7.2 量化背后的核心追问:什么才是重要的

量化不仅仅是数值压缩技术,更是一种资源约束下的优化哲学。它迫使我们回答一个根本问题:在有限的信息带宽下,什么是最重要的?

GPTQ用Hessian逆告诉我们:误差的传播是有结构的;AWQ用激活分布告诉我们:显著性不在权重本身,而在权重与数据的交互;TensorRT用Q/DQ融合告诉我们:硬件与算法的协同设计才是终极答案;GGUF的K-quants告诉我们:量化可以递归,压缩的极限是信息的本质。

当FP4的4-bit权重在Blackwell GPU上飞驰,当Q2_K的2.6-bit模型在笔记本CPU上运行Llama-3,当NanoQuant的<1-bit权重让70B模型塞进8GB显存——我们正在见证一个"大模型小设备"的时代真正到来。

而站在这个前沿上的工程师,需要的不仅是对算法的理解,更是对硬件、编译器、数值分析和信息论的综合洞察。

这就是量化的的极致压缩艺术。


参考资源

经典方法

方法

论文

年份

会议

GPTQ

Frantar et al., GPTQ: Accurate Post-Training Quantization

2023

ICLR

AWQ

Lin et al., Activation-aware Weight Quantization

2024

MLSys (Best Paper)

AQLM

Egiazarian et al., Extreme Compression via Additive Quantization

2024

arXiv

HQQ

Badri & Shaji, Half-Quadratic Quantization

2023

技术博客

SmoothQuant

Xiao et al., SmoothQuant

2022/2023

MIT/微软

QuaRot

Ashkboos et al., Outlier-Free 4-Bit Inference in Rotated LLMs

2024

NeurIPS

SpinQuant

Liu et al., SpinQuant: LLM Quantization with Learned Rotations

2024

arXiv

GGUF

llama.cpp社区规范

2023

开源项目

2026年新方法

方法

论文/来源

会议/年份

核心贡献

TurboQuant

Google Research

ICLR 2026

PolarQuant + QJL,6× KV Cache压缩

MR-GPTQ

IST Austria + ETH

ICLR 2026

FP4硬件定制,6×层级加速

NanoQuant

arXiv 2602.06694

arXiv 2026

Sub-1-Bit PTQ,25.8×压缩

DASH-Q

SNU + Hanyang

EuroMLSys 2026

对角Hessian,极低比特稳健性

SpecQuant

SJTU

AAAI 2026

傅里叶频域分解,W4A4精度损失1.5%

GlowQ

arXiv 2603.25385

arXiv 2026

组共享低秩补偿,TTFB降低23.4%

CoQuant

arXiv 2604.26378

arXiv 2026

联合子空间投影

FLRQ

AAAI 2026

AAAI 2026

R1-Sketch快速秩提取

工程框架

框架

厂商

文档/来源

TensorRT

NVIDIA

NVIDIA Developer Guide

TensorFlow Lite

Google

官方文档

NCNN

腾讯

GitHub Wiki

ONNX Runtime

微软

官方文档

创作不易,禁止抄袭,转载请附上原文链接及标题

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐