存算一体芯片量产元年:从学术概念到千万颗出货,国产力量如何突破冯·诺依曼瓶颈


一个被央视点名的前沿技术

2026年全国两会期间,华中科技大学副校长冯丹在两会通道上发出呼吁:支持湖北打造世界级存算一体产业集群。央视《新闻联播》的镜头罕见地对准了一项半导体底层技术——存算一体(Computing-in-Memory, CiM)。

如果你以为这只是学术界的"实验室玩具",那下面的数据可能会改变你的看法:知存科技的WTM2101芯片已经量产超过1000万颗,搭载在华为和小米的可穿戴设备上

从论文到千万颗量产,存算一体芯片在2026年正式跨过了产业化门槛。这意味着什么呢?我们从头说起。

冯·诺依曼架构的七十年瓶颈

1945年,冯·诺依曼提出了一个影响至今的计算机架构:计算单元和存储单元是分开的。CPU负责算,内存负责存,两者之间通过总线来回搬运数据。

这个架构简洁优雅,但有一个根本性的问题:数据搬运的能耗远大于计算本身

根据业界统计,在传统架构中,一次8位加法运算的能耗约0.03pJ,而从DRAM搬运64位数据到计算单元的能耗高达640pJ——是计算本身的21000倍。在AI推理场景中,模型参数从内存加载到计算单元的过程,消耗了70%以上的总能耗和95%以上的总时间。

存算一体的核心思路极其简单粗暴:把计算直接搬到存储阵列里面做,省掉数据搬运这一步

三大技术流派:从简单到极致

存算一体目前有三个主要技术路线,从易到难排列:

近存计算(Near-Memory Computing, NMC)

计算单元和存储器封装在同一芯片或2.5D/3D封装的同一园区内。数据搬运距离从"厘米级"缩短到"微米级",门槛最低,HBM(高带宽内存)就是这种思路的代表。

存内处理(Processing-in-Memory, PIM)

在存储芯片的外围电路中增加计算功能。比如在DRAM或SRAM的Sense Amplifier旁边加一个乘加器,数据从存储单元读出来之后直接做运算,不需要先送到CPU。

存内计算(Computing-in-Memory, CIM)

最激进也最有前景的路线——直接在存储阵列内部执行矩阵运算。利用存储单元的物理特性(如电流叠加、电压累加)完成模拟计算,一次读操作就能完成一行向量的乘加运算。

ISSCC 2026上,清华大学、华为与字节跳动联合团队展示了一颗28nm的混合CiM芯片,QPS(每秒查询数)提升66倍,QPS/W(能效比)提升181倍。这个数据不是在实验室理想条件下的,而是在真实的推荐系统推理场景中测出来的。

国产厂商的量产成绩单

存算一体赛道上,中国企业的进展比大多数人预期的要快。下面这张表值得收藏:

企业 技术路线 产品/进展 应用场景
知存科技 NOR Flash存算一体 WTM2101已量产超1000万颗 华为/小米可穿戴设备
后摩智能 SRAM存算一体 鸿途H30(256TOPS)已量产 自动驾驶、智能座舱
昕原半导体 ReRAM(阻变存储器) 28nm ReRAM存储芯片已量产 工业控制、物联网
炬芯科技 SRAM存内计算 ATS323X/ATS362X已量产 无线麦克风、电竞耳机
微纳核芯 3D-CIM三维存算一体 与手机龙头合作,兆易创新入股 手机端侧AI推理
亿铸科技 ReRAM存算一体 2023年流片成功,2026年推出AI算力卡 数据中心推理加速

特别值得注意的是昕原半导体——它是国内唯一实现28nm ReRAM量产的企业。ReRAM(阻变存储器)是一种新型非易失存储介质,兼具存储和计算能力,理论上能实现"断电不丢数据+原地计算"的理想状态。虽然目前工艺成熟度和良率仍有瓶颈,但量产本身就是里程碑。

与Chiplet的融合:存算一体的进化路径

存算一体不会取代GPU/NPU,而是通过Chiplet(小芯片)技术与现有计算架构深度融合。这个演进路径大致分三个阶段:

近期(2026-2027):作为专用加速器,处理推理、数据预处理等特定任务,与GPU集群互补部署。比如在数据中心里,用存算一体芯片做Embedding查询和相似度搜索,把这部分负载从GPU上卸下来。

中期(2027-2029):通过3D堆叠先进封装(如台积电的3.5D封装),存算一体单元与GPU/NPU深度融合,实现"近存+存内"的协同计算。微纳核芯的3D-CIM架构已经展示了这个方向的可行性——算力密度提升4倍,功耗降低10倍。

长期(2029以后):以存算一体芯片为核心构建新型计算集群,从根本上颠覆冯·诺依曼架构。当90%的算力需求都迁移到端边场景时,存算一体的能效优势将变得不可替代。

对嵌入式工程师意味着什么

存算一体芯片对嵌入式领域的影响可能比数据中心更快落地。原因很简单:嵌入式场景对功耗和成本极其敏感,存算一体的能效优势在这里是刚需而不是锦上添花。

几个具体的应用方向:

  • 可穿戴设备:知存科技的WTM2101已经证明,存算一体芯片可以在毫瓦级功耗下运行轻量级AI模型(如心率异常检测、语音唤醒词识别),这为Apple Watch、小米手环这类产品提供了低功耗AI的硬件基础。

  • 工业传感器:在振动检测、声学诊断等场景中,传感器端直接完成特征提取和异常分类,只把告警信号上传云端。存算一体芯片让"在传感器里跑AI"变成了现实。

  • 智能音箱和TWS耳机:炬芯科技的ATS323X已经在无线麦克风和电竞耳机中量产,支持本地语音降噪和回声消除。存算一体让这些设备在电池续航不缩水的前提下增加了AI功能。

值得关注的原因

  1. 从学术到产业的跨越。1000万颗量产不是概念验证,而是真金白银的商业化。存算一体不再是"十年后"的技术。
  2. 国产替代的新赛道。在传统CPU/GPU领域追赶英伟达和Intel的难度巨大,但存算一体是全新的技术路线,中国企业和高校在学术积累和产业布局上都有先发优势。
  3. 端侧AI的硬件底座。当AI从云端下沉到端侧,功耗和成本成为最硬的约束条件。存算一体是解决这个约束的最优解之一。

写在最后

存算一体的故事告诉我们:半导体创新不只是把晶体管做得更小(摩尔定律),还可以从根本上改变计算和存储的关系(架构创新)。在这个意义上,存算一体可能是后摩尔时代最重要的技术方向之一。

对于普通开发者来说,存算一体的普及意味着你的AI模型有一天可以跑在一颗功耗不到1瓦的芯片上,不需要连WiFi,不需要调API,数据完全本地处理。这个未来,可能比我们想象的来得更快。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐