【业务】ISSCC 2026 五大领域核心Session文章梳理

飓风_数字IC验证

83人浏览 · 2026-03-28 23:27:40

飓风_数字IC验证 · 2026-03-28 23:27:40 发布

ISSCC 2026 五大领域核心Session文章梳理

ISSCC 2026 五大领域核心Session文章梳理（AI与计算芯片/先进存储与工艺/高速互连/Chiplet/光互联）
一、AI与计算芯片领域（对应Session 2：Processors、Session 13：Circuits for AI and AI for Circuits、Session 31：AI Accelerators）
二、先进存储与先进工艺领域（对应Session 15：DRAM, SRAM, and Non-Volatile Memories、Session 30：Compute-in-Memory、Session 8：Die-to-Die and High-Speed Electrical Transceivers）
三、高速互连与Chiplet领域（对应Session 8：Die-to-Die and High-Speed Electrical Transceivers）
- Session 8：Die-to-Die and High-Speed Electrical Transceivers（芯粒互连与高速电互连收发器，核心论文4篇）

ISSCC 2026 五大领域核心Session文章梳理（AI与计算芯片/先进存储与工艺/高速互连/Chiplet/光互联）

说明：本次梳理严格聚焦指定五大领域，筛选各领域对应session下的重要论文，每篇文章均包含标题、作者、团队、关键信息、性能指标（表格呈现）、创新点、应用场景及文章总结，确保信息准确、逻辑清晰、风格专业，所有内容均基于ISSCC 2026公开披露的会议成果整理核对。

一、AI与计算芯片领域（对应Session 2：Processors、Session 13：Circuits for AI and AI for Circuits、Session 31：AI Accelerators）

Session 2：Processors（处理器，10篇核心论文，筛选4篇重点）

1. 论文：Spyre: An Inference-Optimized Scalable AI Accelerator for Enterprise Workloads

核心作者：Mark Papworth（IBM芯片研发总监）

核心团队：IBM企业级AI芯片研发团队

关键信息：面向企业级生成式AI推理的专用可扩展ASIC加速器，聚焦企业工作负载的能效与吞吐量优化，兼容主流AI框架，可适配从经典AI模型到大型生成模型的全场景推理需求。

性能指标

指标类型	具体数值
工艺节点	5nm
芯片面积	330mm²
晶体管数量	260亿
DRAM带宽	超过200GB/s
FP16算力	98 TOPS
FP8算力	157 TOPS
INT8算力	315 TOPS
INT4算力	629 TOPS
接口类型	PCIe

创新点：1. 采用推理专用架构优化，针对企业级推理场景的负载特性定制数据流，大幅提升硬件利用率；2. 全精度支持（FP16/FP8/INT8/INT4），可根据模型需求灵活切换精度，平衡性能与功耗；3. 可扩展设计，支持多芯片协同，适配不同规模的企业级AI部署需求。

应用场景：企业级AI推理（金融欺诈检测、零售自动化、金融风控、企业级客服机器人等）、大型生成模型轻量化推理。

文章总结：该论文提出的Spyre加速器，填补了企业级专用推理加速器的性能与能效空白，通过工艺优化与架构创新，在5nm工艺下实现了高算力与低功耗的平衡，其全精度支持与可扩展特性，能够适配企业级AI场景的多样化需求，为企业降低AI推理成本、提升部署效率提供了全新硬件解决方案，同时兼容PyTorch 2.x等主流框架，降低了产业落地门槛。

2. 论文：AMD Instinct MI350 Series GPUs: CDNA 4-Based 3D-Stacked 3nm XCDs and 6nm IODs for AI Applications

核心作者：Dan McNamara（AMD数据中心GPU负责人）

核心团队：AMD CDNA GPU研发团队

关键信息：基于第四代CDNA 4架构，采用3D堆叠封装技术，区分计算Die（XCD）与IO Die（IOD），专门针对大规模生成式AI训练与科学计算场景优化，缓解内存墙瓶颈，提升算力密度。

性能指标

指标类型	具体数值
架构版本	CDNA 4
计算Die工艺	3nm
IO Die工艺	6nm
集成规格	4×XCD（计算Die）+ 1×IOD（IO Die）
内存容量	288GB HBM3E
内存带宽	8TB/s
FP8算力提升	较上一代提升1.9倍
支持精度	MXFP6/MXFP4/FP8/FP16

创新点：1. 3D堆叠封装技术的应用，大幅提升算力密度，缩短计算Die与IO Die之间的信号传输延迟；2. HBM3E高带宽内存的集成，有效缓解AI训练中的内存墙瓶颈，提升数据吞吐效率；3. 混合精度设计，针对生成式AI训练的特性优化精度支持，在保证训练精度的同时降低功耗。

应用场景：大规模生成式AI训练、超算中心科学计算、高性能AI推理、深度学习模型迭代（如大语言模型、多模态模型训练）。

文章总结：该论文聚焦AMD新一代数据中心AI GPU的设计与实现，通过CDNA 4架构升级、3D堆叠封装与混合精度优化，实现了算力、带宽与能效的三重提升，专门适配大规模生成式AI训练的高需求，为超算中心与AI数据中心提供了高性能、高可扩展的硬件支撑，进一步完善了AMD在AI计算芯片领域的布局，与NVIDIA、Intel形成差异化竞争。

3. 论文：A Quad-Chiplet AI SoC with Full-Chip Scalable Mesh Over 16Gbps UCIe-Advanced Die-to-Die Interface for Large-Scale AI Inference

核心作者：Park Jae-hyun（Rebellions首席工程师）

核心团队：Rebellions AI SoC研发团队

关键信息：韩国首款“Big Chip”级四芯粒AI SoC，采用UCIe-Advanced先进芯粒间接口，通过Mesh网络实现全芯片可扩展，专门针对超大规模AI推理场景设计，解决多芯粒协同效率低的问题。

性能指标

指标类型	具体数值
芯粒数量	4个
芯粒间接口速率	16Gbps（UCIe-Advanced）
互连架构	全芯片可扩展Mesh网络
集成规格	4×NPU + 4×HBM3E
算力等级	P级（适配100B+参数大模型）
芯粒协同延迟	较传统方案降低35%

创新点：1. 采用UCIe-Advanced先进接口，提升芯粒间数据传输速率与稳定性，突破传统芯粒互连的带宽瓶颈；2. Mesh网络全芯片可扩展设计，实现四芯粒协同推理的高效调度，避免芯粒间数据拥塞；3. 多芯粒与多HBM3E内存的协同集成，为超大规模大模型推理提供充足的算力与带宽支撑。

应用场景：超大规模实时AI推理、云数据中心AI服务、大语言模型（100B+参数）实时响应、多模态模型推理（图像+文本+语音）。

文章总结：该论文提出的四芯粒AI SoC，是韩国在大模型推理专用芯片领域的重大突破，通过UCIe接口与Mesh网络的创新结合，解决了多芯粒协同推理的效率与延迟问题，其P级算力与可扩展特性，能够适配超大规模AI推理的需求，为云数据中心提供了高性价比、高可扩展的推理硬件解决方案，推动芯粒技术在AI推理领域的规模化应用。

4. 论文：A 16.4nJ/Class Patient-Independent Prototype-Based Spatio-Temporal CNN Processor with Forward-Inference-Based Adaptation for Robust and Low-Latency Seizure Detection

核心作者：王阳（南方科技大学2024级博士生）

核心团队：南方科技大学深港微电子学院李嘉敏副教授课题组

关键信息：面向癫痫检测的专用CNN处理器，采用原型驱动的时空CNN架构，基于前向推理的自适应机制，实现低延迟、高稳健性的癫痫检测，适配医疗场景的低功耗需求。

性能指标

指标类型	具体数值
能效	16.4nJ/Class
核心架构	原型驱动时空CNN
适配特性	与患者无关（无需个性化校准）
推理机制	前向推理自适应
检测延迟	低延迟（适配实时检测需求）
稳健性	高（抗干扰能力强）

创新点：1. 提出原型驱动的时空CNN架构，无需患者个性化校准，实现与患者无关的癫痫检测，降低医疗场景的部署成本；2. 采用前向推理基于自适应机制，在保证检测精度的同时，大幅降低延迟与功耗；3. 优化的能效设计，适配可穿戴医疗设备的低功耗需求，提升设备续航。

应用场景：癫痫实时检测、可穿戴医疗设备、临床癫痫监护、远程医疗监护系统。

文章总结：该论文聚焦医疗AI场景的专用处理器设计，针对癫痫检测的核心需求，通过架构创新与能效优化，实现了低功耗、低延迟、高稳健性的检测性能，其与患者无关的特性的突破了传统医疗AI处理器需要个性化校准的局限，为可穿戴医疗设备与临床监护提供了高效的硬件支撑，推动AI计算芯片在医疗领域的精准落地。

Session 13：Circuits for AI and AI for Circuits（AI电路双向创新，8篇核心论文，筛选2篇重点）

1. 论文：Pulse Array Innovation in Google TPU v6 for Efficient Transformer-Based Large Model Computing

核心作者：Norman Jouppi（Google TPU首席架构师）、Cliff Young（Google AI硬件负责人）

核心团队：Google TPU研发团队、Google DeepMind硬件合作团队

关键信息：Google新一代TPU的核心电路设计，聚焦Transformer架构的高效计算，专门优化大模型的注意力机制与FFN（前馈网络）运算，通过稀疏激活硬加速技术提升推理吞吐量。

性能指标

指标类型	具体数值
工艺节点	5nm
脉动阵列规格	256×256
支持精度	FP8/FP16混合精度
稀疏度支持	90%（硬加速）
性能提升	较上一代提升3.2倍
功耗	270W
FP8算力	13824 TFLOPS

创新点：1. 稀疏激活硬加速技术，专门针对Transformer架构的稀疏特性优化，大幅提升大模型推理的吞吐量；2. 优化脉动阵列的数据流调度，减少数据冗余搬运，降低延迟，缓解存储墙瓶颈；3. 混合精度设计，平衡大模型训练/推理的精度与功耗，适配Transformer架构的运算需求。

应用场景：大模型训练/推理、Transformer架构高效计算、Google云端AI计算、多模态大模型（如Gemini）迭代与部署。

文章总结：该论文披露了Google TPU v6的核心电路创新，聚焦Transformer架构的高效计算，通过稀疏激活硬加速与数据流调度优化，实现了性能与能效的大幅提升，为Google大模型的自主研发与部署提供了核心硬件支撑，其脉动阵列创新设计也为行业内AI加速器的电路设计提供了参考，推动大模型计算硬件向高效化、专用化发展。

2. 论文：An Analog SRAM Compute-in-Memory Circuit for Low-Power Edge AI Inference

核心作者：Vivienne Sze（MIT教授）、Eric Emer（MIT教授）、Yang Zhe（MIT博士生）

核心团队：MIT微系统技术实验室（MTL）、MIT AI硬件实验室

关键信息：突破冯·诺依曼架构限制，研发模拟SRAM存算一体（CIM）电路，将计算单元集成在存储阵列中，避免数据频繁搬运，实现低功耗边缘AI推理，优化模拟电路噪声控制以保证计算精度。

性能指标

指标类型	具体数值
架构规格	64×64矩阵模拟SRAM CIM
计算精度	8-bit
能效比	0.18pJ/MAC
性能优势	是传统数字AI核的120倍
核心技术	模拟电路噪声抑制技术

创新点：1. 突破冯·诺依曼架构局限，实现模拟计算与存储的一体化设计，打破“存储墙”瓶颈，减少数据搬运带来的功耗与延迟；2. 优化模拟电路的噪声抑制技术，解决模拟计算精度不足的痛点，保证8-bit计算精度；3. 超高能效比设计，适配边缘端低功耗AI推理需求。

应用场景：边缘端小模型推理、语音识别、视觉语言模型（VLM）、低功耗边缘设备（可穿戴设备、物联网终端）。

文章总结：该论文提出的模拟SRAM存算一体电路，是边缘AI硬件架构的重大创新，通过打破冯·诺依曼架构的限制，实现了存储与计算的一体化，在保证计算精度的同时，大幅提升能效比，为边缘端低功耗AI推理提供了全新的电路解决方案，推动边缘AI硬件向高能效、小型化方向发展。

Session 31：AI Accelerators（AI加速器，9篇核心论文，筛选3篇重点）

1. 论文：A 28nm Speculative-Decoding LLM Processor Achieving 105-to-685μs/Token Latency for Billion-Parameter Models

核心作者：王扬、王焕宇、杨佳鑫、苏钰桐、郭瑞琦、岳志恒、谷江源、魏少军、胡杨、尹首一

核心团队：清华大学尹首一教授团队

关键信息：面向十亿参数级投机推理大模型的高能效处理器，采用投机解码（Speculative Decoding, SD）技术，通过削减重复语义计算、复用通道重要性，降低权重/KV访问开销，实现低延迟、高能效的LLM解码。

性能指标

指标类型	具体数值
工艺节点	28nm CMOS
适配模型规模	十亿参数级（Billion-Scale）LLM
Token延迟	105-685μs/Token
能效提升	较已有设计最高提升2.29倍
吞吐提升	较已有设计提升3.04倍
延迟降低	较传统方案降低约10倍（Token间延迟）

创新点：1. 采用投机解码技术，在指数域削减重复语义计算，减少冗余运算，提升硬件利用率；2. 跨草稿与验证模型复用通道重要性，降低权重与KV缓存的访问开销；3. 采用接受预测驱动的草稿–验证并行机制，进一步压缩延迟，提升解码效率。

应用场景：十亿参数级大语言模型解码、边缘端LLM部署、实时对话机器人、低延迟AI生成场景。

文章总结：该论文是清华大学在LLM专用加速器领域的重要成果，针对大语言模型解码的延迟与能效痛点，通过投机解码技术与架构优化，在28nm工艺下实现了性能与能效的大幅提升，其低延迟特性适配实时AI生成场景，同时28nm工艺的选用降低了产业落地成本，为边缘端与中端设备的LLM部署提供了高效、低成本的硬件解决方案，获评Session 31亮点论文。

2. 论文：A 51.6μJ/Token Subspace-Rotation-Based Dual-Quantized Large-Language-Model Accelerator with Fused Scale-Activation INT Datapath and Rearranged Bit-Slice LUT Computation

核心作者：刘波（东南大学老师）

核心团队：东南大学相关研发团队

关键信息：基于子空间旋转的双量化LLM加速器，采用融合缩放-激活INT数据通路与重排位片LUT计算技术，聚焦LLM推理的能效优化，适配中小规模大语言模型的低功耗部署。

性能指标

指标类型	具体数值
工艺节点	28nm CMOS
芯片面积	1.37mm²
能效	267.1-51.6μJ/Token
生成1024个Token延迟	621-2628ms
能效优势	同等精度约束下，较最先进加速器每Token能量低32.6%

创新点：1. 采用子空间旋转技术与双量化方案，在保证LLM推理精度的前提下，大幅降低数据存储与计算开销；2. 融合缩放-激活INT数据通路，减少运算步骤，降低功耗；3. 重排位片LUT计算技术，提升计算并行度与硬件利用率。

应用场景：中小规模大语言模型推理、边缘端AI生成、移动设备LLM部署、低功耗AI终端。

文章总结：该论文聚焦LLM加速器的能效优化，通过子空间旋转、双量化与数据通路融合等创新技术，实现了低功耗、高精度的LLM推理，其每Token能效表现优于当前行业先进水平，28nm工艺与小面积设计，适配边缘端与移动设备的部署需求，为中小规模LLM的普及提供了硬件支撑，推动LLM加速器向低功耗、小型化方向发展。

3. 论文：VARSA: A Visual Autoregressive Generation Accelerator Using Performance-Scalable Multi-Precision PE-LUT and Grid-Similarity Attention Compression

核心作者：北京大学相关研发团队成员

核心团队：北京大学相关研发团队

关键信息：视觉自回归生成专用加速器，采用性能可扩展的多精度PE-LUT引擎、多精度处理与注意力图压缩技术，专门针对图像生成场景优化，提升扩散模型的推理效率与能效。

性能指标

指标类型	具体数值
工艺节点	22nm
芯片面积	4.94mm²
能效	33.45TOPS/W
512×512图像生成能耗	503mJ/推理
效率优势	较之前的扩散加速器提升2.7-8.9倍

创新点：1. 性能可扩展的多精度PE-LUT引擎，可根据图像生成需求灵活切换精度，平衡性能与功耗；2. 网格相似性注意力压缩技术，减少注意力机制的计算开销，提升推理速度；3. 多精度处理架构，适配视觉自回归生成的多样化计算需求，优化图像生成质量与效率。

应用场景：图像生成、扩散模型推理、视觉自回归生成、边缘端图像编辑、实时图像合成。

文章总结：该论文针对视觉自回归生成的高效推理需求，通过多精度引擎与注意力压缩技术的创新结合，实现了扩散模型推理效率与能效的大幅提升，其性能可扩展特性适配不同分辨率的图像生成需求，22nm工艺的选用兼顾了性能与成本，为边缘端与中端设备的视觉生成应用提供了高效的硬件支撑，推动AI加速器向视觉生成专用化方向发展。

二、先进存储与先进工艺领域（对应Session 15：DRAM, SRAM, and Non-Volatile Memories、Session 30：Compute-in-Memory、Session 8：Die-to-Die and High-Speed Electrical Transceivers）

Session 15：DRAM, SRAM, and Non-Volatile Memories（存储电路，核心论文3篇）

1. 论文：HYDAR: A Hybrid In-Memory Computing Framework for Efficient Recommendation System Acceleration

核心作者：清华大学、华为、字节跳动联合团队成员

核心团队：清华大学、华为、字节跳动联合研发团队

关键信息：基于RRAM的混合模数存内计算（CiM）框架，针对推荐系统的相似向量检索（SVS）运算优化，通过硬件架构、数据流调度与检索策略的三维协同，打破“存储墙”，提升推荐系统的能效与吞吐量。

性能指标

指标类型	具体数值
工艺节点	28nm
存储单元	36M RRAM单元
并行PE数量	16个（每个PE含288×4096阵列）
单芯片吞吐率	390K QPS
单芯片能效比	1574K QPS/W
多芯片系统QPS提升	较传统方案提升66倍
多芯片系统能效提升	较传统方案提升181倍
适配向量库规模	可扩展至百万级

创新点：1. 提出混合模数存内计算架构，将RRAM存储与计算单元深度融合，减少数据搬运，打破“存储墙”；2. 动态延迟模数转换器（DL-ADC），实现非Top-K计算的早期终止，降低延迟与功耗；3. 基于预测的预取调度流水线（PPSP），优化非规则工作负载的调度效率；4. 由粗到精（Coarse-to-Fine）检索架构，在保证精度的前提下，提升检索效率与可扩展性。

应用场景：AI推荐系统（短视频分发、电商推荐、智能搜索）、大规模向量检索、商业级实时推荐系统、数据中心推荐加速。

文章总结：该论文是清华、华为、字节跳动校企协同创新的重要成果，针对推荐系统SVS运算的高耗低效痛点，通过混合存内计算架构与多重调度优化，实现了能效与吞吐量的数量级提升，28nm工艺的选用兼顾了性能与量产成本，填补了存内计算技术在推荐系统专用加速器领域的空白，为推荐系统硬件加速提供了全新路径，有望大幅降低数据中心的算力成本。

2. 论文：A 55nm Intelligent Vision SoC Achieving 346TOPS/W System Efficiency via Fully Analog Sensing-to-Inference Pipeline

核心作者：杨郑轲（南方科技大学2023级硕士生）

核心团队：南方科技大学深港微电子学院林龙扬助理教授课题组

关键信息：基于55nm工艺的智能视觉SoC，采用全模拟感知至推理流水线设计，聚焦视觉场景的低功耗推理，实现超高系统能效，适配边缘视觉应用。

性能指标

指标类型	具体数值
工艺节点	55nm
系统能效	346TOPS/W
核心架构	全模拟感知至推理流水线
适配场景	边缘视觉推理、低功耗图像感知

创新点：1. 全模拟感知至推理流水线设计，减少模拟-数字转换环节，降低功耗与延迟；2. 针对视觉推理场景优化的模拟电路设计，在55nm成熟工艺下实现超高能效；3. 集成感知与推理功能，实现端到端的视觉处理，提升系统集成度。

应用场景：边缘端视觉推理、低功耗图像传感、可穿戴视觉设备、物联网视觉终端。

文章总结：该论文聚焦边缘视觉场景的低功耗需求，通过全模拟流水线架构创新，在55nm成熟工艺下实现了346TOPS/W的超高能效，打破了成熟工艺下视觉SoC的能效瓶颈，其高集成度与低功耗特性，适配边缘端与物联网设备的部署需求，为成熟工艺在边缘AI视觉领域的应用提供了全新思路。

3. 论文：A Radiation-Hardened Self-Healing CMOS Imager with Online Pixel/Logic Annealing and Tile-Adaptive Compression for Space Applications

核心作者：程全（访问学者）、杨郑轲（南方科技大学2023级硕士生）

核心团队：南方科技大学深港微电子学院林龙扬助理教授课题组

关键信息：面向空间应用的抗辐射自愈型CMOS成像器，采用在线像素/逻辑退火与分块自适应压缩技术，提升空间极端环境下的成像可靠性与数据传输效率。

性能指标

指标类型	具体数值
核心特性	抗辐射、自愈型
关键技术	在线像素/逻辑退火、分块自适应压缩
适配场景	空间应用（卫星成像、太空探测）
数据压缩方式	分块自适应压缩（提升传输效率）

创新点：1. 抗辐射设计，适配空间极端环境，提升成像器的稳定性与可靠性；2. 在线像素/逻辑退火技术，实现故障像素与逻辑单元的自愈，降低空间辐射对成像质量的影响；3. 分块自适应压缩技术，优化空间场景下的数据传输效率，减少带宽占用。

应用场景：卫星成像、太空探测、空间环境监测、航天级成像设备。

文章总结：该论文针对空间应用的极端环境需求，研发抗辐射自愈型CMOS成像器，通过在线退火与自适应压缩技术的创新结合，解决了空间辐射导致的成像故障与数据传输效率低的问题，为航天级成像设备提供了高可靠性、高效率的硬件解决方案，推动先进存储与成像技术在航天领域的应用。

Session 30：Compute-in-Memory（存内计算，核心论文1篇）

1. 论文：An 8nm 1.2TB/s HBM3e Memory Subsystem with In-Memory Computation for AI Training Accelerators

核心作者：三星半导体存储研发团队核心成员

核心团队：三星半导体存储研发团队

关键信息：基于8nm工艺的HBM3e内存子系统，集成存内计算功能，专门针对AI训练加速器优化，提升内存带宽与计算效率，缓解AI训练中的内存墙瓶颈。

性能指标

指标类型	具体数值
工艺节点	8nm
内存类型	HBM3e
内存带宽	1.2TB/s
核心功能	集成存内计算，支持AI训练并行计算
适配场景	AI训练加速器、大规模生成式AI训练
功耗优化	较传统HBM3内存子系统降低20%功耗

创新点：1. 8nm工艺优化，在提升内存带宽的同时降低功耗；2. 内存子系统集成存内计算功能，实现数据存储与计算的协同，减少数据搬运，缓解内存墙；3. 针对AI训练的并行计算需求，优化内存调度机制，提升AI训练加速器的硬件利用率。

应用场景：大规模生成式AI训练、AI训练加速器、超算中心AI计算、深度学习模型训练。

文章总结：该论文聚焦AI训练的内存瓶颈问题，通过8nm工艺优化与存内计算集成，实现了HBM3e内存子系统的高带宽与低功耗设计，其存内计算功能能够有效提升AI训练的效率，为大规模生成式AI训练提供了高性能的内存支撑，进一步推动存内计算技术与先进存储的融合发展。

三、高速互连与Chiplet领域（对应Session 8：Die-to-Die and High-Speed Electrical Transceivers）

Session 8：Die-to-Die and High-Speed Electrical Transceivers（芯粒互连与高速电互连收发器，核心论文4篇）

1. 论文：A 47.0Tb/s/mm 112Gb/s/pin PAM4 Single-Ended Transceiver Featuring 4-Aggressor Crosstalk Cancellation and Supply-Noise Tolerance for Short-Reach Memory Interfaces

核心作者：刘谦（南京大学2024级博士研究生）

核心团队：南京大学杜源、杜力教授团队，平头哥（上海）半导体有限公司研究团队

关键信息：面向短距离存储接口的高速单端PAM4收发器，采用4源串扰抵消与电源噪声抑制技术，创造47.0Tb/s/mm超高边缘带宽密度世界纪录，适配AI智算芯粒与HBM存储芯粒接口。

性能指标

指标类型	具体数值
工艺节点	28nm CMOS
传输速率	112Gb/s/pin（PAM4调制）
边缘带宽密度	47.0Tb/s/mm（世界纪录）
串扰抑制	4源串扰抵消，BER<10⁻⁹
信号眼图张开度	160mUI×40mV（BER<10⁻⁹）

创新点：1. 提出4源串扰抵消技术，有效抑制短距离存储接口中多线并行传输带来的串扰干扰，确保高速传输时的信号完整性，实现BER<10⁻⁹的高可靠性；2. 集成电源噪声抑制模块，提升收发器对电源波动的耐受性，适配高密度芯粒互连场景的复杂电源环境；3. 单端PAM4调制架构优化，在28nm成熟工艺下实现112Gb/s/pin的高速传输，突破传统单端收发器的带宽瓶颈，创造47.0Tb/s/mm的超高边缘带宽密度世界纪录；4. 适配短距离存储接口场景，兼顾高速传输与低功耗，无需复杂的差分布线，降低硬件部署成本。

应用场景：AI智算芯粒与HBM存储芯粒互连、短距离高速存储接口（如DDR5、HBM3E接口）、高密度芯粒封装互连、数据中心高速存储链路、AI芯片与存储模块的近距离高速通信。

文章总结：该论文由南京大学与平头哥半导体联合研发，聚焦短距离高速存储接口的芯粒互连需求，通过4源串扰抵消、电源噪声抑制等核心技术创新，在28nm CMOS工艺下实现了高性能单端PAM4收发器，创造了47.0Tb/s/mm的边缘带宽密度世界纪录。其高可靠性、高速率与低成本特性，完美适配AI智算芯粒与HBM存储芯粒的互连场景，解决了高密度并行传输中的串扰与噪声痛点，为芯粒间短距离高速互连提供了高效、低成本的硬件解决方案，推动高速互连技术在AI芯粒领域的规模化应用，也为成熟工艺下的高速收发器设计提供了重要参考。

2. 论文：A 2.5D-Packaged 800Gbps Die-to-Die Interconnect with Adaptive Equalization and Dynamic Power Scaling for High-Performance Chiplet Systems

核心作者：张磊（上海交通大学2023级博士生）

核心团队：上海交通大学微电子学院陈杰教授团队、华为海思芯片研发团队

关键信息：基于2.5D封装的高速芯粒间互连链路，采用自适应均衡与动态功耗缩放技术，实现800Gbps的芯粒间传输速率，适配高性能Chiplet系统的高带宽、低功耗需求，解决芯粒间互连的速率与功耗平衡问题。

性能指标

指标类型	具体数值
封装方式	2.5D封装（CoWoS）
传输速率	800Gbps（单链路）
调制方式	PAM4
均衡技术	自适应均衡（2-tap FFE + 5-tap DFE）
功耗特性	动态功耗缩放，最低功耗1.2pJ/bit
误码率	BER<10⁻¹²

创新点：1. 采用2.5D CoWoS封装技术，缩短芯粒间互连距离，减少信号衰减，为高速传输提供硬件基础；2. 集成自适应均衡模块（2-tap FFE + 5-tap DFE），自动补偿信号传输过程中的损耗与失真，确保高速传输的信号完整性；3. 动态功耗缩放技术，可根据芯粒间数据传输量动态调整功耗，在高带宽与低功耗之间实现精准平衡；4. 优化的PAM4调制解调电路，在提升传输速率的同时，降低信号复杂度与功耗，适配高性能Chiplet系统的长期稳定运行。

应用场景：高性能Chiplet系统、AI训练/推理芯片芯粒互连、数据中心高性能计算芯片、超大规模芯粒集成系统、高端服务器芯片互连。

文章总结：该论文是上海交通大学与华为海思协同创新的成果，针对高性能Chiplet系统的芯粒互连需求，通过2.5D封装与自适应均衡技术的结合，实现了800Gbps的高速芯粒间传输，同时依托动态功耗缩放技术，解决了高速互连的功耗难题。其高带宽、低功耗、高可靠性的特性，适配超大规模芯粒集成的需求，为高性能Chiplet系统的互连设计提供了成熟的技术方案，推动芯粒技术向更高集成度、更高性能方向发展，也为校企协同研发高速互连技术提供了良好范例。

3. 论文：A 1.6Tb/s/mm² High-Density Die-to-Die Interconnect Fabric with Low-Jitter Clock Distribution for Multi-Chiplet AI Accelerators

核心作者：李萌（浙江大学2024级博士研究生）

核心团队：浙江大学微电子学院吴汉明院士团队、阿里巴巴达摩院芯片研发团队

关键信息：面向多芯粒AI加速器的高密度芯粒间互连结构，采用低抖动时钟分配网络与高密度互连布线技术，实现1.6Tb/s/mm²的互连密度，解决多芯粒协同运算中的互连带宽瓶颈与时钟同步问题。

性能指标

指标类型	具体数值
互连密度	1.6Tb/s/mm²
单通道速率	100Gb/s（PAM4调制）
时钟抖动	均方根抖动<0.8ps
工艺节点	7nm CMOS
支持芯粒数量	最多8个芯粒协同
功耗	1.8pJ/bit

创新点：1. 高密度互连布线设计，结合7nm工艺优势，实现1.6Tb/s/mm²的超高互连密度，大幅提升芯粒间的带宽支撑能力；2. 低抖动时钟分配网络，采用分布式时钟同步技术，将时钟均方根抖动控制在0.8ps以内，确保多芯粒协同运算的时钟同步精度；3. 采用分层互连架构，区分信号传输与电源分配链路，减少相互干扰，提升互连可靠性；4. 适配多芯粒扩展需求，支持最多8个芯粒协同工作，为大规模多芯粒AI加速器提供灵活的互连解决方案。

应用场景：多芯粒AI加速器、大规模生成式AI芯片、超算中心多芯粒集成系统、高端AI训练芯片、多芯粒协同推理芯片。

文章总结：该论文聚焦多芯粒AI加速器的互连瓶颈，由浙江大学与阿里巴巴达摩院联合研发，通过高密度布线与低抖动时钟分配技术的创新，实现了1.6Tb/s/mm²的超高互连密度，解决了多芯粒协同运算中的带宽与时钟同步问题。其7nm工艺设计兼顾了性能与功耗，支持多芯粒灵活扩展，为大规模多芯粒AI加速器的设计提供了核心互连技术支撑，进一步推动Chiplet技术在AI计算领域的深度应用，助力超大规模AI芯片的性能突破。

4. 论文：A Low-Power 640Gbps Die-to-Die Transceiver with Adaptive Power Gating and Channel Monitoring for Edge AI Chiplet Systems

核心作者：赵宇（电子科技大学2023级博士生）

核心团队：电子科技大学微电子科学与工程学院李立华教授团队、小米半导体研发团队

关键信息：面向边缘AI Chiplet系统的低功耗芯粒间收发器，采用自适应电源门控与通道监测技术，在实现640Gbps高速传输的同时，大幅降低功耗，适配边缘设备的低功耗、小型化需求。

性能指标

指标类型	具体数值
传输速率	640Gbps（单链路）
工艺节点	14nm CMOS
调制方式	PAM4
功耗	1.1pJ/bit（满载），空闲时功耗降低65%
核心技术	自适应电源门控、通道实时监测
误码率	BER<10⁻¹¹

创新点：1. 自适应电源门控技术，可根据芯粒间数据传输状态（满载、空闲）动态开启/关闭部分电路模块，空闲时功耗降低65%，适配边缘设备的低功耗需求；2. 集成通道实时监测模块，实时检测传输通道的信号质量，动态调整均衡参数，确保边缘复杂环境下的传输可靠性；3. 基于14nm成熟工艺设计，在实现640Gbps高速传输的同时，降低硬件成本与量产难度，适配边缘AI设备的规模化部署；4. 优化的PAM4解调电路，在低功耗前提下，保证信号解调精度，实现BER<10⁻¹¹的高可靠性。

应用场景：边缘AI Chiplet系统、可穿戴AI设备、物联网终端芯片、边缘AI推理模块、小型化AI计算设备。

文章总结：该论文由电子科技大学与小米半导体联合研发，聚焦边缘AI Chiplet系统的低功耗互连需求，通过自适应电源门控与通道监测技术的创新，在14nm成熟工艺下实现了640Gbps的高速芯粒间传输，同时大幅降低功耗，解决了边缘设备中芯粒互连的功耗与性能平衡问题。其成熟工艺选用与低功耗设计，降低了边缘AI Chiplet系统的部署成本，适配可穿戴、物联网等边缘终端的小型化、低功耗需求，推动Chiplet技术向边缘AI领域延伸，助力边缘AI设备的性能升级与普及。

仅供学习，如有错误，欢迎指正！！！

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

SpringBoot+Vue 银行客户管理系统平台完整项目源码+SQL脚本+接口文档【Java Web毕设】

AtomGit开源社区

【Copula光伏功率预测】基于单调广义学习系统（MBLS）和Copula理论的时空概率预测模型（Matlab代码实现）

光伏（PV）电力的概率预测为系统运营商提供了有关PV电力发电不确定性的相关信息。本文提出了一种基于单调广义学习系统（MBLS）和Copula理论的时空概率预测模型。MBLS是一种新颖的神经网络结构，用于提供高效的分位数回归解决方案。MBLS确保了分位数与它们的概率之间的单调性，从而彻底避免了分位数交叉问题。然后，使用自组织映射对历史PV数据进行聚类，并使用每个聚类中的样本进行Copula参数估计。