一篇搞懂所有主流存储技术

W.W.H.

2112人浏览 · 2026-04-29 08:43:32

W.W.H. · 2026-04-29 08:43:32 发布

引言

存储技术是决定电子设备性能的核心基石。从ROM、RAM、Flash到铁电存储器，从纳秒级响应的Cache到持久化存储的硬盘，不同类型的存储器在速度、容量、成本和功耗等关键特性上存在巨大差异。本文将系统梳理主流存储技术的原理、特点及应用场景，并构建一个从内到外的“存储技术金字塔”帮你理解它们之间的层级关系。

一、存储技术金字塔：速度与容量的艺术

计算机系统并非采用单一的存储介质，而是通过分层结构在速度和容量之间取得平衡。越靠近CPU的存储层，速度越快、容量越小、单位成本越高。

层级	存储类型	典型速度	典型容量	核心角色
L0	寄存器 (Register)	亚纳秒级	几十~几百字节	CPU内部数据暂存
L1	缓存 (SRAM Cache)	几纳秒	L1:几十KB, L2:几百KB~几MB, L3:几~几十MB	缓解CPU-内存速度差
L2	主存 (DRAM)	几十纳秒	几GB~几TB	运行中的程序和数据
L3	持久化存储 (NAND/磁盘)	微秒~毫秒级	几百GB~几TB	长期数据保存、文件系统

关键技术特征：寄存器由CPU内部触发器实现，一个时钟周期即可完成读写。SRAM缓存利用6-8个晶体管结构的静态保持能力，无需刷新即能维持数据。DRAM则依赖电容充放电，需要每约64ms刷新一次以保持数据。持久化存储以机械磁盘（数毫秒寻道）和NAND Flash（数十微秒）为代表，成本极低但访问速度落后于主存数个数量级。

局部性原理是该分层结构有效运转的理论基础：程序访问指令和数据在时间上和空间上都倾向于集中在某个连续区域，因此各层按需交换数据即可实现整体高性能接近CPU、大容量接近磁盘的终极目标。

二、易失性存储（RAM & 寄存器）：CPU的“草稿纸”

1. SRAM（静态随机存取存储器）

SRAM使用6-8个晶体管构成双稳态触发器存储每个比特，不需要刷新电路，只要通电就能稳定保持数据。

核心特点：

速度极快：访问延迟仅几纳秒；
集成度低、成本极高：每个存储单元占用多个晶体管，导致芯片面积大，限制了容量提升；
高功耗：虽然待机功耗可控，但活跃工作状态下消耗远大于DRAM；
典型应用：CPU内部的L1、L2、L3缓存，容量通常从几十KB到几十MB。

2. DRAM（动态随机存取存储器）

DRAM利用一个晶体管加一个电容（1T1C）的结构存储一个比特，依靠电容上存储的电荷多少来区分“0”和“1”。由于电容存在漏电，必须定期（约64ms）刷新才能保持数据，故称“动态”。

DRAM的重要变种：

DDR（双倍数据速率）：当前主流为DDR4/DDR5，通过时钟上下沿同时传输数据实现带宽翻倍；
LPDDR（低功耗DDR）：专为手机、平板设计，牺牲部分峰值性能换取极低待机功耗；
GDDR（图形DDR）：针对显卡优化，通道极宽，追求极致数据吞吐量；
HBM（高带宽存储器）：将多层DRAM芯片通过硅穿孔（TSV）技术3D垂直堆叠，走线极短，带宽可达普通DDR5的十倍以上，是AI训练芯片的首选。

3. 寄存器（Register）

寄存器是CPU内部集成的高速小容量存储单元，通常由触发器或锁存器构成，位于处理器内核的数据通道上。它暂存指令操作数、地址、中间结果及状态标志，直接参与运算，速度在皮秒至纳秒级别，容量仅为几十到几百字节。

三、传统非易失性存储（ROM & Flash）：数据的“保险箱”

1. ROM家族演进

ROM（只读存储器）是断电后仍能保持数据的非易失性存储基础形态，经历了几代技术演进：

Mask ROM：制造过程中由光罩直接决定内容，无法更改，适用于大批量固化程序；
PROM（可编程ROM）：用户可用专用烧录器一次性写入，之后不可修改；
EPROM（可擦除PROM）：通过紫外线照射窗口擦除全部内容后重新写入，需取下芯片操作，效率低；
EEPROM（电可擦除PROM）：实现电学按字节擦写，无需离板，但擦写速度极慢（毫秒级）且单次仅能改写单个字节。

2. EEPROM 详解

EEPROM的存储单元基于浮栅晶体管——一个夹在控制栅与沟道之间的多晶硅导电岛。通过施加高压在浮栅上注入或抽出电子来改变阈值电压，由此记录“0”或“1”。由于该过程依赖Fowler-Nordheim隧穿，需电荷泵产生10V以上的编程高压，造成毫秒级擦写延迟，并限制了擦写次数（通常10万~100万次）。

核心特性：容量极小（128Bit~2MB为主），支持按字节独立随机读写，不需要像Flash那样按块擦除，修改一字节不影响其他数据。数据保存时间可达100年，接口以I²C和SPI为主，封装小巧（SOP8/SOT23），适合极低功耗设备使用。典型应用为存储设备序列号、传感器校准参数、密钥以及MCU外围配置位。

3. Flash（闪存）

Flash由Intel于1988年推出，本质是EEPROM的演化版本——通过将多个存储单元串联成串，大幅压缩面积，从而极大提高了密度、降低了成本。写入和擦除均基于Fowler-Nordheim隧穿或热载流子注入，需在控制栅上施加高压改变浮栅电荷状态，擦写必须按块进行（块大小通常4KB~128KB不等）。

Flash分为两大主流类型：

特性	NOR Flash	NAND Flash
读取速度	快（70~100MB/s），支持随机字节读	中等，必须按页读
写入/擦除速度	极慢（毫秒级），整块擦	较快（微秒级），页写块擦
容量上限	小（通常≤128MB），密度低	极大（TB级），密度高
XIP支持	支持，CPU可直接在芯片内执行代码	不支持，必须先加载到RAM
可靠性要求	高，一般无需ECC	必须ECC纠错
典型应用	路由器固件、BIOS、MCU程序存储器	SSD、U盘、SD卡、手机存储

核心区别：NOR支持XIP（片内执行），适合直接存放启动代码；NAND以极高密度和低成本见长，是现代大容量存储的基石。

4. eMMC 与 UFS——基于NAND的集成化存储方案

eMMC和UFS并非独立的物理存储介质，而是将NAND Flash裸片与主控制器封装在一起，遵循统一标准接口的集大成产品：

eMMC（嵌入式多媒体卡）：采用半双工模式（读和写不能同时进行），总线通道通常为8位，主流eMMC 5.1速度上限约400MB/s；
UFS（通用闪存存储）：采用全双工串行差分接口，可同时收发数据，UFS 4.0读取速度已突破4000MB/s，远超过同期eMMC的上限。

两者均在手机、平板等嵌入式设备中承担系统盘角色，UFS已基本在中高端移动设备中取代eMMC。

四、新型非易失性存储：速度与持久性的融合

新型非易失性闪存（eNVM）正试图填补DRAM与Flash之间的性能鸿沟。

1. FeRAM（铁电随机存取存储器）

FeRAM基于铁电晶体的极化效应记录数据。铁电晶体（如PZT，锆钛酸铅）中心原子在施加电场后会移动并稳定于两个可能的极化方向之一，即使移除外电场仍能保持当前状态，从而实现非易失性。早期的“双管双容”（2T2C）结构已逐步演进为与DRAM类似的“单管单容”（1T1C）结构，单元面积缩小约40%，读取时序约130ns，擦写次数高达10¹³以上（近乎无限次），写入无需高压，功耗比EEPROM低一个数量级。

主要局限在于存储密度有限（受制于铁电薄膜微缩稳定性）和读取具有破坏性（每次读取后需回写），应用多集中在工业数据记录、电表、RFID及汽车事件记录等高可靠性场景。

2. MRAM（磁性随机存取存储器）

MRAM利用磁隧道结（MTJ）中磁化方向的平行/反平行来记录二进制数据。MTJ的核心是两片铁磁层夹一层极薄的氧化物绝缘势垒——自由层磁化方向可被改写，参考层磁化方向固定。当两磁化方向平行时，电子穿越势垒的隧穿概率高（低电阻）；反平行时隧穿概率低（高电阻），读出机制即通过感知电阻差异实现。

第一代（磁场写入）已基本淘汰；第二代STT-MRAM通过自旋转移矩——将写电流中的电子自旋角动量传递给自由层磁矩，无需外部磁场即可改写；第三代SOT-MRAM则把读、写路径物理分离，实现亚纳秒切换速度。其关键指标为：擦写寿命>10¹⁵次（无限次）、典型读延迟约2.3纳秒、功耗比DRAM低50%‒80%。目前台积电已量产22nm嵌入式STT-MRAM，三星在14nm制程上融合MRAM与存内计算逻辑。

3. PCRAM（相变随机存取存储器）

PCRAM基于硫系化合物（如Ge₂Sb₂Te₅，GST）在晶态与非晶态间电阻率相差3‒5个数量级的特性实现数据存储。写入时通过不同幅度和宽度的电脉冲焦耳热驱动相变：短而强的脉冲使局部GST熔化后急速冷却形成非晶态（高电阻）；长而弱的脉冲维持晶化温度使原子有序排列（低电阻）。单个单元可轻松实现多值存储（如2比特甚至4比特/单元）。

当前写延迟约60‒120ns，数据保持>10年，但反复熔化‑结晶循环引发元素迁移与体积变化，长期耐久性仍受限制。英特尔傲腾（Optane）固态盘即采用PCRAM技术，延迟约为NAND SSD的千分之一，每日写入量（DWPD）可达30次以上，远超过普通企业级SSD。

4. RRAM/ReRAM（阻变式随机存取存储器）

RRAM通过电场引发金属氧化物薄膜的电阻可逆变化来记录信息。其核心切换机制是导电细丝的形成与断裂：施加正偏压时，金属离子/氧空位迁移形成贯穿绝缘介质的纳米级导电丝，使电阻骤降（SET过程）；施加反向偏压时细丝断裂，电阻恢复至高状态（RESET过程）。该结构仅需两层电极夹一层氧化物（金属‑绝缘体‑金属堆叠），工艺极为精简。

当前RRAM在读写延迟、操作电压和耐久性上均展示出巨大优势（极限读取已进入纳秒级别），并支持模拟计算模式，在24位精度下的存内计算能效比已超过传统数字加速器2个数量级以上。

五、传统机械与电磁存储：硬盘的前世今生

HDD（机械硬盘）

HDD通过磁头在高速旋转的磁盘（通常5400~15000 RPM）上感应或改变磁性颗粒取向来读写数据。磁头悬浮于盘片上方仅几纳米处，利用巨磁阻效应（GMR）读取微弱磁通变化。

虽然顺序读写仍可达200‒250MB/s，但寻道延迟（机械磁头移动到目标磁道）在2‒5ms量级，随机IOPS远小于SSD。主流容量已达20TB以上，每TB成本约为SSD的1/5‒1/4，因此在大容量冷数据存储和监控盘阵列中仍居绝对主导。

磁带存储（Magnetic Tape）

依靠磁头在柔性磁带涂布层上顺序读写，读写过程必须卷绕磁带到目标位置，访问延迟达数十秒甚至分钟级别，但单盘磁带容量已突破50TB，每TB成本仅需几美元，寿命超30年。因此，磁带仍是云服务商和银行等需要进行海量数据长期离线归档的核心手段。

六、3D XPoint：填补DRAM与NAND之间的性能鸿沟

3D XPoint是一种基于电阻式切换原理的非易失性存储架构，由英特尔与美光于2015年联合推出。其核心创新在于交叉点阵列结构（字线和位线交叉处形成存储单元，无晶体管），通过改变体材料电阻切换“0”和“1”，支持字节寻址和写入覆盖，消解了传统NAND必须整块擦除的局限，延迟仅约10微秒（为高端NVMe SSD的1/8‒1/10），每日写入量（DWPD）可达30+。同时可通过DIMM形式（傲腾持久内存）以接近DRAM的速度直接挂载到内存总线。

尽管因商业策略退出市场，3D XPoint所证明的“存储级内存”理念正在通过CXL（Compute Express Link）协议以新的形态延续。

七、记忆宫殿完整对比表：一览众“存储”山

存储技术	易失性	典型速度	擦写寿命	成本	核心应用场景
寄存器	是	<1ns	N/A	极高	CPU内部数据暂存
SRAM	是	~几ns	无限	极高	CPU高速缓存(L1/L2/L3)
DRAM(DDR)	是	~30-50ns	无限	中等	电脑/服务器主内存
LPDDR/GDDR	是	~10-30ns	无限	中等	手机/显卡专用内存
HBM	是	~20ns	无限	高	AI加速器/数据中心
EEPROM	否	~ms级	10⁵-10⁶	中（极小容量）	设备配置、校准参数、小密钥
NOR Flash	否	读：70-100MB/s	10⁵	高（小容量）	固件存储、BIOS、嵌入式代码
NAND Flash	否	读：100-500MB/s	10³-10⁵	低（大容量）	SSD、U盘、SD卡基础介质
eMMC	否	读：~400MB/s（eMMC 5.1）	10³-10⁵	中	中低端手机/平板存储
UFS	否	读：~4200MB/s（UFS 4.0）	10³-10⁵	中	高端手机/平板存储
FeRAM	否	~130ns	10¹³+	高	工业记录仪、电表、RFID
MRAM	否	~2.3ns	10¹⁵+	高	航天电子、车载MCU、存内计算
PCRAM	否	60-120ns	10⁶-10⁷	中	Intel Optane、数据中心存储
RRAM	否	读：数~数十ns	10⁶-10⁹	中	AI存内计算、嵌入式存储
3D XPoint	否	~10μs	10⁷+	中高	缓存加速、持久内存
HDD	否	~5-10ms	N/A	极低（TB/$）	大容量冷存储、备份
磁带	否	>30s（寻址）	N/A	最低	长期归档、灾难恢复

说明：速度指标取值因具体产品和测试条件而异，表中数据为典型消费/企业级产品的中位估算。擦写寿命"无限"通常指~>10¹⁶量级，目前尚未发现极限值。

八、未来展望：统一存储架构的曙光

传统冯·诺依曼架构下，数据在CPU、内存和持久化存储之间的频繁搬移成为能耗与延迟的主要瓶颈。以MRAM、FeRAM、RRAM为代表的新型非易失性存储正朝着“通用存储”方向演进——兼具DRAM的速度、Flash的持久性以及近乎无限的擦写寿命。当这些技术能够以3D堆叠等方式进一步提升密度和降低成本，未来“存储即计算”（存内计算）或将成为现实，彻底重塑现有计算体系。

通过以上全览，你应该已经对从旧到新、从易失到非易失的存储技术体系有了较完整的认识。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

昇腾MindCluster：超节点亲和调度算法实践

AtomGit开源社区

UVa 253 Cube Painting

AtomGit开源社区

Attention Is All You Need论文解读

本文提出了一种革命性的Transformer模型，完全基于自注意力机制，摒弃了传统的RNN和CNN结构。该模型通过并行计算实现了O(1)的路径长度，显著提升了训练效率和性能表现。核心架构包含6层编码器和解码器堆栈，采用多头注意力机制和位置编码来捕获序列信息。实验显示，Transformer在WMT2014英德翻译任务上达到28.4 BLEU分，相比传统模型效率提升显著。该设计通过注意力函数和位置编