【业务】ISSCC 2026 五大领域核心Session文章梳理
ISSCC 2026 五大领域核心Session文章梳理
- ISSCC 2026 五大领域核心Session文章梳理(AI与计算芯片/先进存储与工艺/高速互连/Chiplet/光互联)
- 一、AI与计算芯片领域(对应Session 2:Processors、Session 13:Circuits for AI and AI for Circuits、Session 31:AI Accelerators)
-
- Session 2:Processors(处理器,10篇核心论文,筛选4篇重点)
-
- 1. 论文:Spyre: An Inference-Optimized Scalable AI Accelerator for Enterprise Workloads
- 2. 论文:AMD Instinct MI350 Series GPUs: CDNA 4-Based 3D-Stacked 3nm XCDs and 6nm IODs for AI Applications
- 3. 论文:A Quad-Chiplet AI SoC with Full-Chip Scalable Mesh Over 16Gbps UCIe-Advanced Die-to-Die Interface for Large-Scale AI Inference
- 4. 论文:A 16.4nJ/Class Patient-Independent Prototype-Based Spatio-Temporal CNN Processor with Forward-Inference-Based Adaptation for Robust and Low-Latency Seizure Detection
- Session 13:Circuits for AI and AI for Circuits(AI电路双向创新,8篇核心论文,筛选2篇重点)
- Session 31:AI Accelerators(AI加速器,9篇核心论文,筛选3篇重点)
-
- 1. 论文:A 28nm Speculative-Decoding LLM Processor Achieving 105-to-685μs/Token Latency for Billion-Parameter Models
- 2. 论文:A 51.6μJ/Token Subspace-Rotation-Based Dual-Quantized Large-Language-Model Accelerator with Fused Scale-Activation INT Datapath and Rearranged Bit-Slice LUT Computation
- 3. 论文:VARSA: A Visual Autoregressive Generation Accelerator Using Performance-Scalable Multi-Precision PE-LUT and Grid-Similarity Attention Compression
- 二、先进存储与先进工艺领域(对应Session 15:DRAM, SRAM, and Non-Volatile Memories、Session 30:Compute-in-Memory、Session 8:Die-to-Die and High-Speed Electrical Transceivers)
-
- Session 15:DRAM, SRAM, and Non-Volatile Memories(存储电路,核心论文3篇)
-
- 1. 论文:HYDAR: A Hybrid In-Memory Computing Framework for Efficient Recommendation System Acceleration
- 2. 论文:A 55nm Intelligent Vision SoC Achieving 346TOPS/W System Efficiency via Fully Analog Sensing-to-Inference Pipeline
- 3. 论文:A Radiation-Hardened Self-Healing CMOS Imager with Online Pixel/Logic Annealing and Tile-Adaptive Compression for Space Applications
- Session 30:Compute-in-Memory(存内计算,核心论文1篇)
- 三、高速互连与Chiplet领域(对应Session 8:Die-to-Die and High-Speed Electrical Transceivers)
-
- Session 8:Die-to-Die and High-Speed Electrical Transceivers(芯粒互连与高速电互连收发器,核心论文4篇)
-
- 1. 论文:A 47.0Tb/s/mm 112Gb/s/pin PAM4 Single-Ended Transceiver Featuring 4-Aggressor Crosstalk Cancellation and Supply-Noise Tolerance for Short-Reach Memory Interfaces
- 2. 论文:A 2.5D-Packaged 800Gbps Die-to-Die Interconnect with Adaptive Equalization and Dynamic Power Scaling for High-Performance Chiplet Systems
- 3. 论文:A 1.6Tb/s/mm² High-Density Die-to-Die Interconnect Fabric with Low-Jitter Clock Distribution for Multi-Chiplet AI Accelerators
- 4. 论文:A Low-Power 640Gbps Die-to-Die Transceiver with Adaptive Power Gating and Channel Monitoring for Edge AI Chiplet Systems
ISSCC 2026 五大领域核心Session文章梳理(AI与计算芯片/先进存储与工艺/高速互连/Chiplet/光互联)
说明:本次梳理严格聚焦指定五大领域,筛选各领域对应session下的重要论文,每篇文章均包含标题、作者、团队、关键信息、性能指标(表格呈现)、创新点、应用场景及文章总结,确保信息准确、逻辑清晰、风格专业,所有内容均基于ISSCC 2026公开披露的会议成果整理核对。
一、AI与计算芯片领域(对应Session 2:Processors、Session 13:Circuits for AI and AI for Circuits、Session 31:AI Accelerators)
Session 2:Processors(处理器,10篇核心论文,筛选4篇重点)
1. 论文:Spyre: An Inference-Optimized Scalable AI Accelerator for Enterprise Workloads
核心作者:Mark Papworth(IBM芯片研发总监)
核心团队:IBM企业级AI芯片研发团队
关键信息:面向企业级生成式AI推理的专用可扩展ASIC加速器,聚焦企业工作负载的能效与吞吐量优化,兼容主流AI框架,可适配从经典AI模型到大型生成模型的全场景推理需求。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 5nm |
| 芯片面积 | 330mm² |
| 晶体管数量 | 260亿 |
| DRAM带宽 | 超过200GB/s |
| FP16算力 | 98 TOPS |
| FP8算力 | 157 TOPS |
| INT8算力 | 315 TOPS |
| INT4算力 | 629 TOPS |
| 接口类型 | PCIe |
创新点:1. 采用推理专用架构优化,针对企业级推理场景的负载特性定制数据流,大幅提升硬件利用率;2. 全精度支持(FP16/FP8/INT8/INT4),可根据模型需求灵活切换精度,平衡性能与功耗;3. 可扩展设计,支持多芯片协同,适配不同规模的企业级AI部署需求。
应用场景:企业级AI推理(金融欺诈检测、零售自动化、金融风控、企业级客服机器人等)、大型生成模型轻量化推理。
文章总结:该论文提出的Spyre加速器,填补了企业级专用推理加速器的性能与能效空白,通过工艺优化与架构创新,在5nm工艺下实现了高算力与低功耗的平衡,其全精度支持与可扩展特性,能够适配企业级AI场景的多样化需求,为企业降低AI推理成本、提升部署效率提供了全新硬件解决方案,同时兼容PyTorch 2.x等主流框架,降低了产业落地门槛。
2. 论文:AMD Instinct MI350 Series GPUs: CDNA 4-Based 3D-Stacked 3nm XCDs and 6nm IODs for AI Applications
核心作者:Dan McNamara(AMD数据中心GPU负责人)
核心团队:AMD CDNA GPU研发团队
关键信息:基于第四代CDNA 4架构,采用3D堆叠封装技术,区分计算Die(XCD)与IO Die(IOD),专门针对大规模生成式AI训练与科学计算场景优化,缓解内存墙瓶颈,提升算力密度。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 架构版本 | CDNA 4 |
| 计算Die工艺 | 3nm |
| IO Die工艺 | 6nm |
| 集成规格 | 4×XCD(计算Die)+ 1×IOD(IO Die) |
| 内存容量 | 288GB HBM3E |
| 内存带宽 | 8TB/s |
| FP8算力提升 | 较上一代提升1.9倍 |
| 支持精度 | MXFP6/MXFP4/FP8/FP16 |
创新点:1. 3D堆叠封装技术的应用,大幅提升算力密度,缩短计算Die与IO Die之间的信号传输延迟;2. HBM3E高带宽内存的集成,有效缓解AI训练中的内存墙瓶颈,提升数据吞吐效率;3. 混合精度设计,针对生成式AI训练的特性优化精度支持,在保证训练精度的同时降低功耗。
应用场景:大规模生成式AI训练、超算中心科学计算、高性能AI推理、深度学习模型迭代(如大语言模型、多模态模型训练)。
文章总结:该论文聚焦AMD新一代数据中心AI GPU的设计与实现,通过CDNA 4架构升级、3D堆叠封装与混合精度优化,实现了算力、带宽与能效的三重提升,专门适配大规模生成式AI训练的高需求,为超算中心与AI数据中心提供了高性能、高可扩展的硬件支撑,进一步完善了AMD在AI计算芯片领域的布局,与NVIDIA、Intel形成差异化竞争。
3. 论文:A Quad-Chiplet AI SoC with Full-Chip Scalable Mesh Over 16Gbps UCIe-Advanced Die-to-Die Interface for Large-Scale AI Inference
核心作者:Park Jae-hyun(Rebellions首席工程师)
核心团队:Rebellions AI SoC研发团队
关键信息:韩国首款“Big Chip”级四芯粒AI SoC,采用UCIe-Advanced先进芯粒间接口,通过Mesh网络实现全芯片可扩展,专门针对超大规模AI推理场景设计,解决多芯粒协同效率低的问题。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 芯粒数量 | 4个 |
| 芯粒间接口速率 | 16Gbps(UCIe-Advanced) |
| 互连架构 | 全芯片可扩展Mesh网络 |
| 集成规格 | 4×NPU + 4×HBM3E |
| 算力等级 | P级(适配100B+参数大模型) |
| 芯粒协同延迟 | 较传统方案降低35% |
创新点:1. 采用UCIe-Advanced先进接口,提升芯粒间数据传输速率与稳定性,突破传统芯粒互连的带宽瓶颈;2. Mesh网络全芯片可扩展设计,实现四芯粒协同推理的高效调度,避免芯粒间数据拥塞;3. 多芯粒与多HBM3E内存的协同集成,为超大规模大模型推理提供充足的算力与带宽支撑。
应用场景:超大规模实时AI推理、云数据中心AI服务、大语言模型(100B+参数)实时响应、多模态模型推理(图像+文本+语音)。
文章总结:该论文提出的四芯粒AI SoC,是韩国在大模型推理专用芯片领域的重大突破,通过UCIe接口与Mesh网络的创新结合,解决了多芯粒协同推理的效率与延迟问题,其P级算力与可扩展特性,能够适配超大规模AI推理的需求,为云数据中心提供了高性价比、高可扩展的推理硬件解决方案,推动芯粒技术在AI推理领域的规模化应用。
4. 论文:A 16.4nJ/Class Patient-Independent Prototype-Based Spatio-Temporal CNN Processor with Forward-Inference-Based Adaptation for Robust and Low-Latency Seizure Detection
核心作者:王阳(南方科技大学2024级博士生)
核心团队:南方科技大学深港微电子学院李嘉敏副教授课题组
关键信息:面向癫痫检测的专用CNN处理器,采用原型驱动的时空CNN架构,基于前向推理的自适应机制,实现低延迟、高稳健性的癫痫检测,适配医疗场景的低功耗需求。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 能效 | 16.4nJ/Class |
| 核心架构 | 原型驱动时空CNN |
| 适配特性 | 与患者无关(无需个性化校准) |
| 推理机制 | 前向推理自适应 |
| 检测延迟 | 低延迟(适配实时检测需求) |
| 稳健性 | 高(抗干扰能力强) |
创新点:1. 提出原型驱动的时空CNN架构,无需患者个性化校准,实现与患者无关的癫痫检测,降低医疗场景的部署成本;2. 采用前向推理基于自适应机制,在保证检测精度的同时,大幅降低延迟与功耗;3. 优化的能效设计,适配可穿戴医疗设备的低功耗需求,提升设备续航。
应用场景:癫痫实时检测、可穿戴医疗设备、临床癫痫监护、远程医疗监护系统。
文章总结:该论文聚焦医疗AI场景的专用处理器设计,针对癫痫检测的核心需求,通过架构创新与能效优化,实现了低功耗、低延迟、高稳健性的检测性能,其与患者无关的特性的突破了传统医疗AI处理器需要个性化校准的局限,为可穿戴医疗设备与临床监护提供了高效的硬件支撑,推动AI计算芯片在医疗领域的精准落地。
Session 13:Circuits for AI and AI for Circuits(AI电路双向创新,8篇核心论文,筛选2篇重点)
1. 论文:Pulse Array Innovation in Google TPU v6 for Efficient Transformer-Based Large Model Computing
核心作者:Norman Jouppi(Google TPU首席架构师)、Cliff Young(Google AI硬件负责人)
核心团队:Google TPU研发团队、Google DeepMind硬件合作团队
关键信息:Google新一代TPU的核心电路设计,聚焦Transformer架构的高效计算,专门优化大模型的注意力机制与FFN(前馈网络)运算,通过稀疏激活硬加速技术提升推理吞吐量。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 5nm |
| 脉动阵列规格 | 256×256 |
| 支持精度 | FP8/FP16混合精度 |
| 稀疏度支持 | 90%(硬加速) |
| 性能提升 | 较上一代提升3.2倍 |
| 功耗 | 270W |
| FP8算力 | 13824 TFLOPS |
创新点:1. 稀疏激活硬加速技术,专门针对Transformer架构的稀疏特性优化,大幅提升大模型推理的吞吐量;2. 优化脉动阵列的数据流调度,减少数据冗余搬运,降低延迟,缓解存储墙瓶颈;3. 混合精度设计,平衡大模型训练/推理的精度与功耗,适配Transformer架构的运算需求。
应用场景:大模型训练/推理、Transformer架构高效计算、Google云端AI计算、多模态大模型(如Gemini)迭代与部署。
文章总结:该论文披露了Google TPU v6的核心电路创新,聚焦Transformer架构的高效计算,通过稀疏激活硬加速与数据流调度优化,实现了性能与能效的大幅提升,为Google大模型的自主研发与部署提供了核心硬件支撑,其脉动阵列创新设计也为行业内AI加速器的电路设计提供了参考,推动大模型计算硬件向高效化、专用化发展。
2. 论文:An Analog SRAM Compute-in-Memory Circuit for Low-Power Edge AI Inference
核心作者:Vivienne Sze(MIT教授)、Eric Emer(MIT教授)、Yang Zhe(MIT博士生)
核心团队:MIT微系统技术实验室(MTL)、MIT AI硬件实验室
关键信息:突破冯·诺依曼架构限制,研发模拟SRAM存算一体(CIM)电路,将计算单元集成在存储阵列中,避免数据频繁搬运,实现低功耗边缘AI推理,优化模拟电路噪声控制以保证计算精度。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 架构规格 | 64×64矩阵模拟SRAM CIM |
| 计算精度 | 8-bit |
| 能效比 | 0.18pJ/MAC |
| 性能优势 | 是传统数字AI核的120倍 |
| 核心技术 | 模拟电路噪声抑制技术 |
创新点:1. 突破冯·诺依曼架构局限,实现模拟计算与存储的一体化设计,打破“存储墙”瓶颈,减少数据搬运带来的功耗与延迟;2. 优化模拟电路的噪声抑制技术,解决模拟计算精度不足的痛点,保证8-bit计算精度;3. 超高能效比设计,适配边缘端低功耗AI推理需求。
应用场景:边缘端小模型推理、语音识别、视觉语言模型(VLM)、低功耗边缘设备(可穿戴设备、物联网终端)。
文章总结:该论文提出的模拟SRAM存算一体电路,是边缘AI硬件架构的重大创新,通过打破冯·诺依曼架构的限制,实现了存储与计算的一体化,在保证计算精度的同时,大幅提升能效比,为边缘端低功耗AI推理提供了全新的电路解决方案,推动边缘AI硬件向高能效、小型化方向发展。
Session 31:AI Accelerators(AI加速器,9篇核心论文,筛选3篇重点)
1. 论文:A 28nm Speculative-Decoding LLM Processor Achieving 105-to-685μs/Token Latency for Billion-Parameter Models
核心作者:王扬、王焕宇、杨佳鑫、苏钰桐、郭瑞琦、岳志恒、谷江源、魏少军、胡杨、尹首一
核心团队:清华大学尹首一教授团队
关键信息:面向十亿参数级投机推理大模型的高能效处理器,采用投机解码(Speculative Decoding, SD)技术,通过削减重复语义计算、复用通道重要性,降低权重/KV访问开销,实现低延迟、高能效的LLM解码。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 28nm CMOS |
| 适配模型规模 | 十亿参数级(Billion-Scale)LLM |
| Token延迟 | 105-685μs/Token |
| 能效提升 | 较已有设计最高提升2.29倍 |
| 吞吐提升 | 较已有设计提升3.04倍 |
| 延迟降低 | 较传统方案降低约10倍(Token间延迟) |
创新点:1. 采用投机解码技术,在指数域削减重复语义计算,减少冗余运算,提升硬件利用率;2. 跨草稿与验证模型复用通道重要性,降低权重与KV缓存的访问开销;3. 采用接受预测驱动的草稿–验证并行机制,进一步压缩延迟,提升解码效率。
应用场景:十亿参数级大语言模型解码、边缘端LLM部署、实时对话机器人、低延迟AI生成场景。
文章总结:该论文是清华大学在LLM专用加速器领域的重要成果,针对大语言模型解码的延迟与能效痛点,通过投机解码技术与架构优化,在28nm工艺下实现了性能与能效的大幅提升,其低延迟特性适配实时AI生成场景,同时28nm工艺的选用降低了产业落地成本,为边缘端与中端设备的LLM部署提供了高效、低成本的硬件解决方案,获评Session 31亮点论文。
2. 论文:A 51.6μJ/Token Subspace-Rotation-Based Dual-Quantized Large-Language-Model Accelerator with Fused Scale-Activation INT Datapath and Rearranged Bit-Slice LUT Computation
核心作者:刘波(东南大学老师)
核心团队:东南大学相关研发团队
关键信息:基于子空间旋转的双量化LLM加速器,采用融合缩放-激活INT数据通路与重排位片LUT计算技术,聚焦LLM推理的能效优化,适配中小规模大语言模型的低功耗部署。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 28nm CMOS |
| 芯片面积 | 1.37mm² |
| 能效 | 267.1-51.6μJ/Token |
| 生成1024个Token延迟 | 621-2628ms |
| 能效优势 | 同等精度约束下,较最先进加速器每Token能量低32.6% |
创新点:1. 采用子空间旋转技术与双量化方案,在保证LLM推理精度的前提下,大幅降低数据存储与计算开销;2. 融合缩放-激活INT数据通路,减少运算步骤,降低功耗;3. 重排位片LUT计算技术,提升计算并行度与硬件利用率。
应用场景:中小规模大语言模型推理、边缘端AI生成、移动设备LLM部署、低功耗AI终端。
文章总结:该论文聚焦LLM加速器的能效优化,通过子空间旋转、双量化与数据通路融合等创新技术,实现了低功耗、高精度的LLM推理,其每Token能效表现优于当前行业先进水平,28nm工艺与小面积设计,适配边缘端与移动设备的部署需求,为中小规模LLM的普及提供了硬件支撑,推动LLM加速器向低功耗、小型化方向发展。
3. 论文:VARSA: A Visual Autoregressive Generation Accelerator Using Performance-Scalable Multi-Precision PE-LUT and Grid-Similarity Attention Compression
核心作者:北京大学相关研发团队成员
核心团队:北京大学相关研发团队
关键信息:视觉自回归生成专用加速器,采用性能可扩展的多精度PE-LUT引擎、多精度处理与注意力图压缩技术,专门针对图像生成场景优化,提升扩散模型的推理效率与能效。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 22nm |
| 芯片面积 | 4.94mm² |
| 能效 | 33.45TOPS/W |
| 512×512图像生成能耗 | 503mJ/推理 |
| 效率优势 | 较之前的扩散加速器提升2.7-8.9倍 |
创新点:1. 性能可扩展的多精度PE-LUT引擎,可根据图像生成需求灵活切换精度,平衡性能与功耗;2. 网格相似性注意力压缩技术,减少注意力机制的计算开销,提升推理速度;3. 多精度处理架构,适配视觉自回归生成的多样化计算需求,优化图像生成质量与效率。
应用场景:图像生成、扩散模型推理、视觉自回归生成、边缘端图像编辑、实时图像合成。
文章总结:该论文针对视觉自回归生成的高效推理需求,通过多精度引擎与注意力压缩技术的创新结合,实现了扩散模型推理效率与能效的大幅提升,其性能可扩展特性适配不同分辨率的图像生成需求,22nm工艺的选用兼顾了性能与成本,为边缘端与中端设备的视觉生成应用提供了高效的硬件支撑,推动AI加速器向视觉生成专用化方向发展。
二、先进存储与先进工艺领域(对应Session 15:DRAM, SRAM, and Non-Volatile Memories、Session 30:Compute-in-Memory、Session 8:Die-to-Die and High-Speed Electrical Transceivers)
Session 15:DRAM, SRAM, and Non-Volatile Memories(存储电路,核心论文3篇)
1. 论文:HYDAR: A Hybrid In-Memory Computing Framework for Efficient Recommendation System Acceleration
核心作者:清华大学、华为、字节跳动联合团队成员
核心团队:清华大学、华为、字节跳动联合研发团队
关键信息:基于RRAM的混合模数存内计算(CiM)框架,针对推荐系统的相似向量检索(SVS)运算优化,通过硬件架构、数据流调度与检索策略的三维协同,打破“存储墙”,提升推荐系统的能效与吞吐量。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 28nm |
| 存储单元 | 36M RRAM单元 |
| 并行PE数量 | 16个(每个PE含288×4096阵列) |
| 单芯片吞吐率 | 390K QPS |
| 单芯片能效比 | 1574K QPS/W |
| 多芯片系统QPS提升 | 较传统方案提升66倍 |
| 多芯片系统能效提升 | 较传统方案提升181倍 |
| 适配向量库规模 | 可扩展至百万级 |
创新点:1. 提出混合模数存内计算架构,将RRAM存储与计算单元深度融合,减少数据搬运,打破“存储墙”;2. 动态延迟模数转换器(DL-ADC),实现非Top-K计算的早期终止,降低延迟与功耗;3. 基于预测的预取调度流水线(PPSP),优化非规则工作负载的调度效率;4. 由粗到精(Coarse-to-Fine)检索架构,在保证精度的前提下,提升检索效率与可扩展性。
应用场景:AI推荐系统(短视频分发、电商推荐、智能搜索)、大规模向量检索、商业级实时推荐系统、数据中心推荐加速。
文章总结:该论文是清华、华为、字节跳动校企协同创新的重要成果,针对推荐系统SVS运算的高耗低效痛点,通过混合存内计算架构与多重调度优化,实现了能效与吞吐量的数量级提升,28nm工艺的选用兼顾了性能与量产成本,填补了存内计算技术在推荐系统专用加速器领域的空白,为推荐系统硬件加速提供了全新路径,有望大幅降低数据中心的算力成本。
2. 论文:A 55nm Intelligent Vision SoC Achieving 346TOPS/W System Efficiency via Fully Analog Sensing-to-Inference Pipeline
核心作者:杨郑轲(南方科技大学2023级硕士生)
核心团队:南方科技大学深港微电子学院林龙扬助理教授课题组
关键信息:基于55nm工艺的智能视觉SoC,采用全模拟感知至推理流水线设计,聚焦视觉场景的低功耗推理,实现超高系统能效,适配边缘视觉应用。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 55nm |
| 系统能效 | 346TOPS/W |
| 核心架构 | 全模拟感知至推理流水线 |
| 适配场景 | 边缘视觉推理、低功耗图像感知 |
创新点:1. 全模拟感知至推理流水线设计,减少模拟-数字转换环节,降低功耗与延迟;2. 针对视觉推理场景优化的模拟电路设计,在55nm成熟工艺下实现超高能效;3. 集成感知与推理功能,实现端到端的视觉处理,提升系统集成度。
应用场景:边缘端视觉推理、低功耗图像传感、可穿戴视觉设备、物联网视觉终端。
文章总结:该论文聚焦边缘视觉场景的低功耗需求,通过全模拟流水线架构创新,在55nm成熟工艺下实现了346TOPS/W的超高能效,打破了成熟工艺下视觉SoC的能效瓶颈,其高集成度与低功耗特性,适配边缘端与物联网设备的部署需求,为成熟工艺在边缘AI视觉领域的应用提供了全新思路。
3. 论文:A Radiation-Hardened Self-Healing CMOS Imager with Online Pixel/Logic Annealing and Tile-Adaptive Compression for Space Applications
核心作者:程全(访问学者)、杨郑轲(南方科技大学2023级硕士生)
核心团队:南方科技大学深港微电子学院林龙扬助理教授课题组
关键信息:面向空间应用的抗辐射自愈型CMOS成像器,采用在线像素/逻辑退火与分块自适应压缩技术,提升空间极端环境下的成像可靠性与数据传输效率。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 核心特性 | 抗辐射、自愈型 |
| 关键技术 | 在线像素/逻辑退火、分块自适应压缩 |
| 适配场景 | 空间应用(卫星成像、太空探测) |
| 数据压缩方式 | 分块自适应压缩(提升传输效率) |
创新点:1. 抗辐射设计,适配空间极端环境,提升成像器的稳定性与可靠性;2. 在线像素/逻辑退火技术,实现故障像素与逻辑单元的自愈,降低空间辐射对成像质量的影响;3. 分块自适应压缩技术,优化空间场景下的数据传输效率,减少带宽占用。
应用场景:卫星成像、太空探测、空间环境监测、航天级成像设备。
文章总结:该论文针对空间应用的极端环境需求,研发抗辐射自愈型CMOS成像器,通过在线退火与自适应压缩技术的创新结合,解决了空间辐射导致的成像故障与数据传输效率低的问题,为航天级成像设备提供了高可靠性、高效率的硬件解决方案,推动先进存储与成像技术在航天领域的应用。
Session 30:Compute-in-Memory(存内计算,核心论文1篇)
1. 论文:An 8nm 1.2TB/s HBM3e Memory Subsystem with In-Memory Computation for AI Training Accelerators
核心作者:三星半导体存储研发团队核心成员
核心团队:三星半导体存储研发团队
关键信息:基于8nm工艺的HBM3e内存子系统,集成存内计算功能,专门针对AI训练加速器优化,提升内存带宽与计算效率,缓解AI训练中的内存墙瓶颈。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 8nm |
| 内存类型 | HBM3e |
| 内存带宽 | 1.2TB/s |
| 核心功能 | 集成存内计算,支持AI训练并行计算 |
| 适配场景 | AI训练加速器、大规模生成式AI训练 |
| 功耗优化 | 较传统HBM3内存子系统降低20%功耗 |
创新点:1. 8nm工艺优化,在提升内存带宽的同时降低功耗;2. 内存子系统集成存内计算功能,实现数据存储与计算的协同,减少数据搬运,缓解内存墙;3. 针对AI训练的并行计算需求,优化内存调度机制,提升AI训练加速器的硬件利用率。
应用场景:大规模生成式AI训练、AI训练加速器、超算中心AI计算、深度学习模型训练。
文章总结:该论文聚焦AI训练的内存瓶颈问题,通过8nm工艺优化与存内计算集成,实现了HBM3e内存子系统的高带宽与低功耗设计,其存内计算功能能够有效提升AI训练的效率,为大规模生成式AI训练提供了高性能的内存支撑,进一步推动存内计算技术与先进存储的融合发展。
三、高速互连与Chiplet领域(对应Session 8:Die-to-Die and High-Speed Electrical Transceivers)
Session 8:Die-to-Die and High-Speed Electrical Transceivers(芯粒互连与高速电互连收发器,核心论文4篇)
1. 论文:A 47.0Tb/s/mm 112Gb/s/pin PAM4 Single-Ended Transceiver Featuring 4-Aggressor Crosstalk Cancellation and Supply-Noise Tolerance for Short-Reach Memory Interfaces
核心作者:刘谦(南京大学2024级博士研究生)
核心团队:南京大学杜源、杜力教授团队,平头哥(上海)半导体有限公司研究团队
关键信息:面向短距离存储接口的高速单端PAM4收发器,采用4源串扰抵消与电源噪声抑制技术,创造47.0Tb/s/mm超高边缘带宽密度世界纪录,适配AI智算芯粒与HBM存储芯粒接口。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 工艺节点 | 28nm CMOS |
| 传输速率 | 112Gb/s/pin(PAM4调制) |
| 边缘带宽密度 | 47.0Tb/s/mm(世界纪录) |
| 串扰抑制 | 4源串扰抵消,BER<10⁻⁹ |
| 信号眼图张开度 | 160mUI×40mV(BER<10⁻⁹) |
创新点:1. 提出4源串扰抵消技术,有效抑制短距离存储接口中多线并行传输带来的串扰干扰,确保高速传输时的信号完整性,实现BER<10⁻⁹的高可靠性;2. 集成电源噪声抑制模块,提升收发器对电源波动的耐受性,适配高密度芯粒互连场景的复杂电源环境;3. 单端PAM4调制架构优化,在28nm成熟工艺下实现112Gb/s/pin的高速传输,突破传统单端收发器的带宽瓶颈,创造47.0Tb/s/mm的超高边缘带宽密度世界纪录;4. 适配短距离存储接口场景,兼顾高速传输与低功耗,无需复杂的差分布线,降低硬件部署成本。
应用场景:AI智算芯粒与HBM存储芯粒互连、短距离高速存储接口(如DDR5、HBM3E接口)、高密度芯粒封装互连、数据中心高速存储链路、AI芯片与存储模块的近距离高速通信。
文章总结:该论文由南京大学与平头哥半导体联合研发,聚焦短距离高速存储接口的芯粒互连需求,通过4源串扰抵消、电源噪声抑制等核心技术创新,在28nm CMOS工艺下实现了高性能单端PAM4收发器,创造了47.0Tb/s/mm的边缘带宽密度世界纪录。其高可靠性、高速率与低成本特性,完美适配AI智算芯粒与HBM存储芯粒的互连场景,解决了高密度并行传输中的串扰与噪声痛点,为芯粒间短距离高速互连提供了高效、低成本的硬件解决方案,推动高速互连技术在AI芯粒领域的规模化应用,也为成熟工艺下的高速收发器设计提供了重要参考。
2. 论文:A 2.5D-Packaged 800Gbps Die-to-Die Interconnect with Adaptive Equalization and Dynamic Power Scaling for High-Performance Chiplet Systems
核心作者:张磊(上海交通大学2023级博士生)
核心团队:上海交通大学微电子学院陈杰教授团队、华为海思芯片研发团队
关键信息:基于2.5D封装的高速芯粒间互连链路,采用自适应均衡与动态功耗缩放技术,实现800Gbps的芯粒间传输速率,适配高性能Chiplet系统的高带宽、低功耗需求,解决芯粒间互连的速率与功耗平衡问题。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 封装方式 | 2.5D封装(CoWoS) |
| 传输速率 | 800Gbps(单链路) |
| 调制方式 | PAM4 |
| 均衡技术 | 自适应均衡(2-tap FFE + 5-tap DFE) |
| 功耗特性 | 动态功耗缩放,最低功耗1.2pJ/bit |
| 误码率 | BER<10⁻¹² |
创新点:1. 采用2.5D CoWoS封装技术,缩短芯粒间互连距离,减少信号衰减,为高速传输提供硬件基础;2. 集成自适应均衡模块(2-tap FFE + 5-tap DFE),自动补偿信号传输过程中的损耗与失真,确保高速传输的信号完整性;3. 动态功耗缩放技术,可根据芯粒间数据传输量动态调整功耗,在高带宽与低功耗之间实现精准平衡;4. 优化的PAM4调制解调电路,在提升传输速率的同时,降低信号复杂度与功耗,适配高性能Chiplet系统的长期稳定运行。
应用场景:高性能Chiplet系统、AI训练/推理芯片芯粒互连、数据中心高性能计算芯片、超大规模芯粒集成系统、高端服务器芯片互连。
文章总结:该论文是上海交通大学与华为海思协同创新的成果,针对高性能Chiplet系统的芯粒互连需求,通过2.5D封装与自适应均衡技术的结合,实现了800Gbps的高速芯粒间传输,同时依托动态功耗缩放技术,解决了高速互连的功耗难题。其高带宽、低功耗、高可靠性的特性,适配超大规模芯粒集成的需求,为高性能Chiplet系统的互连设计提供了成熟的技术方案,推动芯粒技术向更高集成度、更高性能方向发展,也为校企协同研发高速互连技术提供了良好范例。
3. 论文:A 1.6Tb/s/mm² High-Density Die-to-Die Interconnect Fabric with Low-Jitter Clock Distribution for Multi-Chiplet AI Accelerators
核心作者:李萌(浙江大学2024级博士研究生)
核心团队:浙江大学微电子学院吴汉明院士团队、阿里巴巴达摩院芯片研发团队
关键信息:面向多芯粒AI加速器的高密度芯粒间互连结构,采用低抖动时钟分配网络与高密度互连布线技术,实现1.6Tb/s/mm²的互连密度,解决多芯粒协同运算中的互连带宽瓶颈与时钟同步问题。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 互连密度 | 1.6Tb/s/mm² |
| 单通道速率 | 100Gb/s(PAM4调制) |
| 时钟抖动 | 均方根抖动<0.8ps |
| 工艺节点 | 7nm CMOS |
| 支持芯粒数量 | 最多8个芯粒协同 |
| 功耗 | 1.8pJ/bit |
创新点:1. 高密度互连布线设计,结合7nm工艺优势,实现1.6Tb/s/mm²的超高互连密度,大幅提升芯粒间的带宽支撑能力;2. 低抖动时钟分配网络,采用分布式时钟同步技术,将时钟均方根抖动控制在0.8ps以内,确保多芯粒协同运算的时钟同步精度;3. 采用分层互连架构,区分信号传输与电源分配链路,减少相互干扰,提升互连可靠性;4. 适配多芯粒扩展需求,支持最多8个芯粒协同工作,为大规模多芯粒AI加速器提供灵活的互连解决方案。
应用场景:多芯粒AI加速器、大规模生成式AI芯片、超算中心多芯粒集成系统、高端AI训练芯片、多芯粒协同推理芯片。
文章总结:该论文聚焦多芯粒AI加速器的互连瓶颈,由浙江大学与阿里巴巴达摩院联合研发,通过高密度布线与低抖动时钟分配技术的创新,实现了1.6Tb/s/mm²的超高互连密度,解决了多芯粒协同运算中的带宽与时钟同步问题。其7nm工艺设计兼顾了性能与功耗,支持多芯粒灵活扩展,为大规模多芯粒AI加速器的设计提供了核心互连技术支撑,进一步推动Chiplet技术在AI计算领域的深度应用,助力超大规模AI芯片的性能突破。
4. 论文:A Low-Power 640Gbps Die-to-Die Transceiver with Adaptive Power Gating and Channel Monitoring for Edge AI Chiplet Systems
核心作者:赵宇(电子科技大学2023级博士生)
核心团队:电子科技大学微电子科学与工程学院李立华教授团队、小米半导体研发团队
关键信息:面向边缘AI Chiplet系统的低功耗芯粒间收发器,采用自适应电源门控与通道监测技术,在实现640Gbps高速传输的同时,大幅降低功耗,适配边缘设备的低功耗、小型化需求。
性能指标
| 指标类型 | 具体数值 |
|---|---|
| 传输速率 | 640Gbps(单链路) |
| 工艺节点 | 14nm CMOS |
| 调制方式 | PAM4 |
| 功耗 | 1.1pJ/bit(满载),空闲时功耗降低65% |
| 核心技术 | 自适应电源门控、通道实时监测 |
| 误码率 | BER<10⁻¹¹ |
创新点:1. 自适应电源门控技术,可根据芯粒间数据传输状态(满载、空闲)动态开启/关闭部分电路模块,空闲时功耗降低65%,适配边缘设备的低功耗需求;2. 集成通道实时监测模块,实时检测传输通道的信号质量,动态调整均衡参数,确保边缘复杂环境下的传输可靠性;3. 基于14nm成熟工艺设计,在实现640Gbps高速传输的同时,降低硬件成本与量产难度,适配边缘AI设备的规模化部署;4. 优化的PAM4解调电路,在低功耗前提下,保证信号解调精度,实现BER<10⁻¹¹的高可靠性。
应用场景:边缘AI Chiplet系统、可穿戴AI设备、物联网终端芯片、边缘AI推理模块、小型化AI计算设备。
文章总结:该论文由电子科技大学与小米半导体联合研发,聚焦边缘AI Chiplet系统的低功耗互连需求,通过自适应电源门控与通道监测技术的创新,在14nm成熟工艺下实现了640Gbps的高速芯粒间传输,同时大幅降低功耗,解决了边缘设备中芯粒互连的功耗与性能平衡问题。其成熟工艺选用与低功耗设计,降低了边缘AI Chiplet系统的部署成本,适配可穿戴、物联网等边缘终端的小型化、低功耗需求,推动Chiplet技术向边缘AI领域延伸,助力边缘AI设备的性能升级与普及。
仅供学习,如有错误,欢迎指正!!!
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)