存算一体芯片量产元年-突破冯诺依曼瓶颈

西里尤琦

871人浏览 · 2026-04-16 09:22:54

西里尤琦 · 2026-04-16 09:22:54 发布

存算一体芯片量产元年：从学术概念到千万颗出货，国产力量如何突破冯·诺依曼瓶颈

一个被央视点名的前沿技术

2026年全国两会期间，华中科技大学副校长冯丹在两会通道上发出呼吁：支持湖北打造世界级存算一体产业集群。央视《新闻联播》的镜头罕见地对准了一项半导体底层技术——存算一体（Computing-in-Memory, CiM）。

如果你以为这只是学术界的"实验室玩具"，那下面的数据可能会改变你的看法：知存科技的WTM2101芯片已经量产超过1000万颗，搭载在华为和小米的可穿戴设备上。

从论文到千万颗量产，存算一体芯片在2026年正式跨过了产业化门槛。这意味着什么呢？我们从头说起。

冯·诺依曼架构的七十年瓶颈

1945年，冯·诺依曼提出了一个影响至今的计算机架构：计算单元和存储单元是分开的。CPU负责算，内存负责存，两者之间通过总线来回搬运数据。

这个架构简洁优雅，但有一个根本性的问题：数据搬运的能耗远大于计算本身。

根据业界统计，在传统架构中，一次8位加法运算的能耗约0.03pJ，而从DRAM搬运64位数据到计算单元的能耗高达640pJ——是计算本身的21000倍。在AI推理场景中，模型参数从内存加载到计算单元的过程，消耗了70%以上的总能耗和95%以上的总时间。

存算一体的核心思路极其简单粗暴：把计算直接搬到存储阵列里面做，省掉数据搬运这一步。

三大技术流派：从简单到极致

存算一体目前有三个主要技术路线，从易到难排列：

近存计算（Near-Memory Computing, NMC）

计算单元和存储器封装在同一芯片或2.5D/3D封装的同一园区内。数据搬运距离从"厘米级"缩短到"微米级"，门槛最低，HBM（高带宽内存）就是这种思路的代表。

存内处理（Processing-in-Memory, PIM）

在存储芯片的外围电路中增加计算功能。比如在DRAM或SRAM的Sense Amplifier旁边加一个乘加器，数据从存储单元读出来之后直接做运算，不需要先送到CPU。

存内计算（Computing-in-Memory, CIM）

最激进也最有前景的路线——直接在存储阵列内部执行矩阵运算。利用存储单元的物理特性（如电流叠加、电压累加）完成模拟计算，一次读操作就能完成一行向量的乘加运算。

ISSCC 2026上，清华大学、华为与字节跳动联合团队展示了一颗28nm的混合CiM芯片，QPS（每秒查询数）提升66倍，QPS/W（能效比）提升181倍。这个数据不是在实验室理想条件下的，而是在真实的推荐系统推理场景中测出来的。

国产厂商的量产成绩单

存算一体赛道上，中国企业的进展比大多数人预期的要快。下面这张表值得收藏：

企业	技术路线	产品/进展	应用场景
知存科技	NOR Flash存算一体	WTM2101已量产超1000万颗	华为/小米可穿戴设备
后摩智能	SRAM存算一体	鸿途H30（256TOPS）已量产	自动驾驶、智能座舱
昕原半导体	ReRAM（阻变存储器）	28nm ReRAM存储芯片已量产	工业控制、物联网
炬芯科技	SRAM存内计算	ATS323X/ATS362X已量产	无线麦克风、电竞耳机
微纳核芯	3D-CIM三维存算一体	与手机龙头合作，兆易创新入股	手机端侧AI推理
亿铸科技	ReRAM存算一体	2023年流片成功，2026年推出AI算力卡	数据中心推理加速

特别值得注意的是昕原半导体——它是国内唯一实现28nm ReRAM量产的企业。ReRAM（阻变存储器）是一种新型非易失存储介质，兼具存储和计算能力，理论上能实现"断电不丢数据+原地计算"的理想状态。虽然目前工艺成熟度和良率仍有瓶颈，但量产本身就是里程碑。

与Chiplet的融合：存算一体的进化路径

存算一体不会取代GPU/NPU，而是通过Chiplet（小芯片）技术与现有计算架构深度融合。这个演进路径大致分三个阶段：

近期（2026-2027）：作为专用加速器，处理推理、数据预处理等特定任务，与GPU集群互补部署。比如在数据中心里，用存算一体芯片做Embedding查询和相似度搜索，把这部分负载从GPU上卸下来。

中期（2027-2029）：通过3D堆叠先进封装（如台积电的3.5D封装），存算一体单元与GPU/NPU深度融合，实现"近存+存内"的协同计算。微纳核芯的3D-CIM架构已经展示了这个方向的可行性——算力密度提升4倍，功耗降低10倍。

长期（2029以后）：以存算一体芯片为核心构建新型计算集群，从根本上颠覆冯·诺依曼架构。当90%的算力需求都迁移到端边场景时，存算一体的能效优势将变得不可替代。

对嵌入式工程师意味着什么

存算一体芯片对嵌入式领域的影响可能比数据中心更快落地。原因很简单：嵌入式场景对功耗和成本极其敏感，存算一体的能效优势在这里是刚需而不是锦上添花。

几个具体的应用方向：

可穿戴设备：知存科技的WTM2101已经证明，存算一体芯片可以在毫瓦级功耗下运行轻量级AI模型（如心率异常检测、语音唤醒词识别），这为Apple Watch、小米手环这类产品提供了低功耗AI的硬件基础。
工业传感器：在振动检测、声学诊断等场景中，传感器端直接完成特征提取和异常分类，只把告警信号上传云端。存算一体芯片让"在传感器里跑AI"变成了现实。
智能音箱和TWS耳机：炬芯科技的ATS323X已经在无线麦克风和电竞耳机中量产，支持本地语音降噪和回声消除。存算一体让这些设备在电池续航不缩水的前提下增加了AI功能。

值得关注的原因

从学术到产业的跨越。1000万颗量产不是概念验证，而是真金白银的商业化。存算一体不再是"十年后"的技术。
国产替代的新赛道。在传统CPU/GPU领域追赶英伟达和Intel的难度巨大，但存算一体是全新的技术路线，中国企业和高校在学术积累和产业布局上都有先发优势。
端侧AI的硬件底座。当AI从云端下沉到端侧，功耗和成本成为最硬的约束条件。存算一体是解决这个约束的最优解之一。

写在最后

存算一体的故事告诉我们：半导体创新不只是把晶体管做得更小（摩尔定律），还可以从根本上改变计算和存储的关系（架构创新）。在这个意义上，存算一体可能是后摩尔时代最重要的技术方向之一。

对于普通开发者来说，存算一体的普及意味着你的AI模型有一天可以跑在一颗功耗不到1瓦的芯片上，不需要连WiFi，不需要调API，数据完全本地处理。这个未来，可能比我们想象的来得更快。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

[Dify x EdgeOne] 论文猎手——用 Dify + EdgeOne Pages 给科研人造一个每日 arXiv 速读助手

AtomGit开源社区

[Dify x EdgeOne] 哄睡童话机——用 Dify + EdgeOne Pages 给娃造一个会现挂的 AI 睡前故事神器

AtomGit开源社区

消息跨端架构演进：基于 C++ 的多端一致性研发框架实践

跨端不是追求 100% 代码复用。核心是在"一致性"与"平台最优体验"之间找到平衡点。对于强交互场景（如键盘区域），保留 Native 实现往往是更好的选择。容器框架的抽象层级要足够精简。过度设计会导致理解成本反增。我们的 BizLogicProtocol 只有 7 个核心方法，足以覆盖所有业务场景。全链路质量监控是成功落地的关键保障。跨端方案最怕的不是技术问题，而是出了问题找不到原因。架构合理性