存算一体芯片量产元年-突破冯诺依曼瓶颈
存算一体芯片量产元年:从学术概念到千万颗出货,国产力量如何突破冯·诺依曼瓶颈
一个被央视点名的前沿技术
2026年全国两会期间,华中科技大学副校长冯丹在两会通道上发出呼吁:支持湖北打造世界级存算一体产业集群。央视《新闻联播》的镜头罕见地对准了一项半导体底层技术——存算一体(Computing-in-Memory, CiM)。
如果你以为这只是学术界的"实验室玩具",那下面的数据可能会改变你的看法:知存科技的WTM2101芯片已经量产超过1000万颗,搭载在华为和小米的可穿戴设备上。
从论文到千万颗量产,存算一体芯片在2026年正式跨过了产业化门槛。这意味着什么呢?我们从头说起。
冯·诺依曼架构的七十年瓶颈
1945年,冯·诺依曼提出了一个影响至今的计算机架构:计算单元和存储单元是分开的。CPU负责算,内存负责存,两者之间通过总线来回搬运数据。
这个架构简洁优雅,但有一个根本性的问题:数据搬运的能耗远大于计算本身。
根据业界统计,在传统架构中,一次8位加法运算的能耗约0.03pJ,而从DRAM搬运64位数据到计算单元的能耗高达640pJ——是计算本身的21000倍。在AI推理场景中,模型参数从内存加载到计算单元的过程,消耗了70%以上的总能耗和95%以上的总时间。
存算一体的核心思路极其简单粗暴:把计算直接搬到存储阵列里面做,省掉数据搬运这一步。
三大技术流派:从简单到极致
存算一体目前有三个主要技术路线,从易到难排列:
近存计算(Near-Memory Computing, NMC)
计算单元和存储器封装在同一芯片或2.5D/3D封装的同一园区内。数据搬运距离从"厘米级"缩短到"微米级",门槛最低,HBM(高带宽内存)就是这种思路的代表。
存内处理(Processing-in-Memory, PIM)
在存储芯片的外围电路中增加计算功能。比如在DRAM或SRAM的Sense Amplifier旁边加一个乘加器,数据从存储单元读出来之后直接做运算,不需要先送到CPU。
存内计算(Computing-in-Memory, CIM)
最激进也最有前景的路线——直接在存储阵列内部执行矩阵运算。利用存储单元的物理特性(如电流叠加、电压累加)完成模拟计算,一次读操作就能完成一行向量的乘加运算。
ISSCC 2026上,清华大学、华为与字节跳动联合团队展示了一颗28nm的混合CiM芯片,QPS(每秒查询数)提升66倍,QPS/W(能效比)提升181倍。这个数据不是在实验室理想条件下的,而是在真实的推荐系统推理场景中测出来的。
国产厂商的量产成绩单
存算一体赛道上,中国企业的进展比大多数人预期的要快。下面这张表值得收藏:
| 企业 | 技术路线 | 产品/进展 | 应用场景 |
|---|---|---|---|
| 知存科技 | NOR Flash存算一体 | WTM2101已量产超1000万颗 | 华为/小米可穿戴设备 |
| 后摩智能 | SRAM存算一体 | 鸿途H30(256TOPS)已量产 | 自动驾驶、智能座舱 |
| 昕原半导体 | ReRAM(阻变存储器) | 28nm ReRAM存储芯片已量产 | 工业控制、物联网 |
| 炬芯科技 | SRAM存内计算 | ATS323X/ATS362X已量产 | 无线麦克风、电竞耳机 |
| 微纳核芯 | 3D-CIM三维存算一体 | 与手机龙头合作,兆易创新入股 | 手机端侧AI推理 |
| 亿铸科技 | ReRAM存算一体 | 2023年流片成功,2026年推出AI算力卡 | 数据中心推理加速 |
特别值得注意的是昕原半导体——它是国内唯一实现28nm ReRAM量产的企业。ReRAM(阻变存储器)是一种新型非易失存储介质,兼具存储和计算能力,理论上能实现"断电不丢数据+原地计算"的理想状态。虽然目前工艺成熟度和良率仍有瓶颈,但量产本身就是里程碑。
与Chiplet的融合:存算一体的进化路径
存算一体不会取代GPU/NPU,而是通过Chiplet(小芯片)技术与现有计算架构深度融合。这个演进路径大致分三个阶段:
近期(2026-2027):作为专用加速器,处理推理、数据预处理等特定任务,与GPU集群互补部署。比如在数据中心里,用存算一体芯片做Embedding查询和相似度搜索,把这部分负载从GPU上卸下来。
中期(2027-2029):通过3D堆叠先进封装(如台积电的3.5D封装),存算一体单元与GPU/NPU深度融合,实现"近存+存内"的协同计算。微纳核芯的3D-CIM架构已经展示了这个方向的可行性——算力密度提升4倍,功耗降低10倍。
长期(2029以后):以存算一体芯片为核心构建新型计算集群,从根本上颠覆冯·诺依曼架构。当90%的算力需求都迁移到端边场景时,存算一体的能效优势将变得不可替代。
对嵌入式工程师意味着什么
存算一体芯片对嵌入式领域的影响可能比数据中心更快落地。原因很简单:嵌入式场景对功耗和成本极其敏感,存算一体的能效优势在这里是刚需而不是锦上添花。
几个具体的应用方向:
-
可穿戴设备:知存科技的WTM2101已经证明,存算一体芯片可以在毫瓦级功耗下运行轻量级AI模型(如心率异常检测、语音唤醒词识别),这为Apple Watch、小米手环这类产品提供了低功耗AI的硬件基础。
-
工业传感器:在振动检测、声学诊断等场景中,传感器端直接完成特征提取和异常分类,只把告警信号上传云端。存算一体芯片让"在传感器里跑AI"变成了现实。
-
智能音箱和TWS耳机:炬芯科技的ATS323X已经在无线麦克风和电竞耳机中量产,支持本地语音降噪和回声消除。存算一体让这些设备在电池续航不缩水的前提下增加了AI功能。
值得关注的原因
- 从学术到产业的跨越。1000万颗量产不是概念验证,而是真金白银的商业化。存算一体不再是"十年后"的技术。
- 国产替代的新赛道。在传统CPU/GPU领域追赶英伟达和Intel的难度巨大,但存算一体是全新的技术路线,中国企业和高校在学术积累和产业布局上都有先发优势。
- 端侧AI的硬件底座。当AI从云端下沉到端侧,功耗和成本成为最硬的约束条件。存算一体是解决这个约束的最优解之一。
写在最后
存算一体的故事告诉我们:半导体创新不只是把晶体管做得更小(摩尔定律),还可以从根本上改变计算和存储的关系(架构创新)。在这个意义上,存算一体可能是后摩尔时代最重要的技术方向之一。
对于普通开发者来说,存算一体的普及意味着你的AI模型有一天可以跑在一颗功耗不到1瓦的芯片上,不需要连WiFi,不需要调API,数据完全本地处理。这个未来,可能比我们想象的来得更快。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)