大模型从基础到入门——入门知识二相关工具

qq_47814951

709人浏览 · 2025-06-23 15:04:04

qq_47814951 · 2025-06-23 15:04:04 发布

接上文：大模型从基础到入门——入门知识-CSDN博客

本文主要记录入门大模型学习的相关知识，以期为后续工作学习提供帮助。（除了我自己截图外，引用的我尽量标注来源，有些忘记来源了请告诉我orz）

更新ing

一、大模型相关工具

Flash Attn

为解决普通Transformer计算速度慢和存储占用高的问题，人们将优化方向分为两个大方向：FLOPS（floating point operations per second）、MAC（memory Access Cost）。其中，针对降低FLOPS的方法叫做Efficient Transformer，而已经有实验发现，只降低FLOPS并不能显著提升模型计算速度，因为此时MAC开销将成为瓶颈。

根据计算密集程度，我们可以将operator分为两类：

计算密集型-Computed-bound：包括大矩阵乘法、大卷积核卷积操作等；

存储密集型-Memory-bound：包括逐元素操作（ReLU、dropout）、Reduce归约操作（求和、softmax、batchNorm）等。

Flash Attention将优化重点放在了降低存储访问开销方面（MAC），而代价就是增加了一定的FLOPS。

首先，我们看看一次标准的Transformer计算包含八次显存（HBM）读写操作：

读Q、K并乘法计算，写回结果，共三次；

softmax一读一写，共两次；

读中间结果、V并乘法计算，写回结果，共三次

其中矩阵乘法可以使用分块思想来加速计算，Flash Attention将参与计算的矩阵分块送入GPU静态缓存（SRAM）中，从而减少HBM的读写。

但难点在于优化第二步的softmax计算过程：普通的softmax是一个e的指数项分式，当指数过大时会引发溢出问题，所以在实际实现中，我们通常需要将指数减去所有数中的最大值，达到缩放目的。而最大值和求和就是优化的难点。

核心思想：Flash Attention采取了增量计算，在矩阵分块思想基础上，先对一个分块计算局部softmax值，并存储，在处理下一个分块时，再返回更新全局最大值、exp求和项、前面分块保存的旧softmax值。

该方法通过直接计算得到答案，避免中间矩阵attn的存储，在越长的文本上效果越好，可达到普通方法的3.5倍。

vLLM - Paged Attn

vLLM主要用于快速LLM推理和服务，具有最好的服务吞吐性能、Paged Attention优化KVcache、动态batch、优化CUDA kernels四个特点。

其技术核心就是Paged Attention，该方法将操作系统中虚拟内存分页思想引入到LLM中，可以在无需任何模型架构修改情况下提高速度。

对于普通KV cache来说，其具有显存占用大、动态变化的特性，所以管理KV cache难度较大。所以Paged Attention 允许在非连续的内存空间中存储连续的K、V，具体来说，其将每个序列的KV cache划分为块，每个块包含固定数量token的KV，在计算时根据需要去内存中高效调用对应块即可。

这张图画的很清楚：

从上面的图可以看出，内存浪费只会发生在最后一个块中，从而让系统对更多序列进行批处理，提高GPU利用率与吞吐率；同时，在并行采样中，多个输出序列是由同一个prompt生成的，中间计算和内存可以在输出序列中共享，实现高效内存共享。

总的来说，vLLM通过调度器、显存管理、执行器，实现以下优点：

PagedAttention（分页注意力）
将传统的连续KV缓存拆分为非连续内存页管理，类似操作系统的虚拟内存机制。优势：相同前缀请求复用KV缓存

连续批处理（Continuous Batching）
动态合并不同进度的请求，GPU空闲时间减少75%，对比传统静态批处理，吞吐量提升2-4倍

量化与CUDA内核优化
支持FP8/INT8量化，集成FlashAttention等优化内核，多GPU分布式推理支持，通过张量并行拆分模型至多卡

分块预填充chunked prefill：处理超长prompt的prefill，将其分块与其他请求一起处理，保证吞吐量

llama.cpp

Ollama底层调用就是llama.cpp，面向边缘计算的轻量化引擎，其核心技术原理：

分层量化技术
支持1.5~8位自适应量化，7B模型4-bit量化后仅需4GB内存，采用GGUF格式二进制存储，支持内存映射加载

跨平台指令集优化
ARM NEON加速苹果芯片，AVX512优化x86架构，集成Metal框架实现M系列芯片原生加速

混合推理模式
CPU+GPU协同计算，突破单一硬件显存限制，通过WebAssembly实现在浏览器端运行（如移动端）

KTransformer

存储优化

MoE架构的异构参数管理
稀疏MoE参数卸载：将模型中非Shared部分的稀疏MoE矩阵存储在CPU内存中，仅将稠密部分保留在GPU显存，显著降低显存需求。这种策略在DeepSeek-671B模型中实现显存占用降低60%以上；动态参数加载：根据当前激活的专家模块动态加载CPU中的参数，通过异步预加载机制减少延迟。例如在处理文本生成任务时，CPU参数加载与GPU计算并行执行。

KV Cache压缩与分层存储
MLA算子融合：通过将矩阵运算吸收到权重矩阵中，直接生成压缩后的KV Cache，减少序列长度对缓存空间的依赖。对比传统MHA实现，KV缓存体积压缩率达30%；分级缓存策略：高频访问的KV数据保留在HBM显存，低频数据放置于SSD/CPU，通过相似性检索（如PageAttention）实现按需加载。

动态量化与混合精度
分层量化策略：对激活函数采用动态INT8量化（通过SmoothQuant迁移异常值），权重则采用INT4分组量化（如GPTQ算法），综合压缩率达75% ；量化感知训练集成：支持训练时引入模拟量化噪声，提升低精度参数的鲁棒性。

计算优化

算子的深度定制与融合
MLA算子重构：将原始MLA展开的MHA计算流合并为单次矩阵运算，算术强度提升2.3倍。例如在A100显卡上，Attention计算耗时从5.2ms降至2.1ms ；CPU-GPU协同计算：设计异构算子（如GELU反向传播），将部分计算任务分配给CPU（如稀疏矩阵乘法），利用CPU多核并行性分担GPU负载。

并行化与内核加速
张量并行扩展：支持跨多GPU的权重分片，通过QPI总线实现层间参数的动态迁移（如每层参数分布在不同的CPU插槽本地内存）；CUDA Graph优化：预编译高频计算路径（如Attention-MLP计算流），减少内核启动开销。实测在长序列生成场景下延迟降低18% 。

计算强度敏感的任务调度
基于ROI的Offload策略：根据算子计算强度（Ops/Byte）自动决策是否将任务卸载到CPU。例如Softmax等低计算强度操作优先卸载；动态批处理合并：结合EffectiveTransformer的连续序列打包技术，消除Padding带来的冗余计算，吞吐量提升40% 。