智体EDA的曙光:自主数字芯片设计的概览
25年12月来自浙江钱塘高等研究院(TIAS)和浙大的论文“The Dawn of Agentic EDA: A Survey of Autonomous Digital Chip Design”。
本综述全面概述生成式人工智能 (Generation AI) 和智体人工智能 (Agentic AI) 在数字电子设计自动化 (EDA) 领域的融合。文章首先回顾从传统计算机辅助设计 (CAD) 到人工智能辅助 EDA (AI4EDA),再到新兴的 AI -原生和智体设计范式的演变历程。其阐述这些范式在数字芯片设计流程中的应用,包括基于多模态基础模型的智体认知架构构建、前端 RTL 代码生成和智能验证,以及采用算法创新和工具编排的后端物理设计。通过集成案例研究验证这些方法,展示从微架构定义到图形数据系统(GDS)II 的实际可行性。特别强调跨阶段反馈回路的潜力,其中智体利用后端功率-性能-面积(PPA)指标自主优化前端逻辑。此外,本综述还深入探讨这些范式对安全性的双重影响,涵盖新型对抗性风险、自动化漏洞修复和隐私保护基础设施。最后,本文批判性地总结当前与幻觉、数据稀缺和黑盒工具相关的挑战,并概述未来向L4级自主芯片设计发展的方向。
集成电路 (IC) 设计行业目前正经历着一个历史性的转折点。几十年来,电子设计自动化 (EDA) 的发展历程呈线性,从手动布局到计算机辅助设计 (CAD),再到针对特定逻辑综合和物理设计任务的基于算法的自动化。虽然机器学习最近已被集成到一些特定工具中以增强其功能,但大语言模型 (LLM) 和智体人工智能的爆炸式增长标志着从“自动化辅助”到“自主设计”的深刻转变 [1]。如图/表所示,这一演进轨迹有望超越静态优化算法,迈向能够进行推理、规划和工具协调的认知系统。
生产力差距和自动化瓶颈
摩尔定律下的复杂性爆炸。尽管摩尔定律带来的边际效益面临着物理尺寸缩放的挑战,但现代片上系统 (SoC) 的设计规模已经达到了数千亿个晶体管。然而,人类的设计效率未能跟上这种复杂性的步伐,造成了严重的“效率差距”。经验数据表明,仅验证任务就常常消耗整个开发周期的 60% 到 70%,而设计成本随着每个流程节点的推进而急剧上升 [2]。传统的基于脚本的自动化越来越不足以弥合这一差距,因此需要进行在演化时间线后期阶段所展示的范式转变。
从 AI4EDA 到 AI-Native EDA。近年来,学术界和工业界都对“AI for EDA”(AI4EDA)进行了广泛的探索。然而,Chen [3] 指出,目前大多数 AI4EDA 方法仅仅是将计算机视觉 (CV) 或自然语言处理 (NLP) 的模型应用于电路任务。如上图的第二阶段所示(通常对应于 L2 级辅助驾驶系统),这些方法通常只是对现有软件接口的“修补”,而不是基础性的重构。这与张[4]提出的“第三代人工智能”的更广泛愿景相一致,该愿景强调知识、数据和推理的融合——这是本综述中讨论的自主智体的先决条件。
术语和自主级别。为了保持各章节术语的一致性,根据总结的分类,将自主级别称为L0-L5。简而言之,L2对应于“副驾驶copilot”式的辅助,而L3+表示具有多步骤执行循环且可在减少人为干预的情况下运行的智体系统。
相比之下,“AI原生EDA”(图中的阶段3,支持L3智体工作流程)的概念已成为一种必要的演进。它提倡将人工智能置于设计过程的核心,依赖于能够同时理解网表、寄存器-传输级(RTL)代码和物理布局的多模态电路基础模型(CFM)[3, 5]。
与先前工作的关系。本综述直接建立在Chen[3]提出的“AI原生EDA”愿景之上。其工作奠定基础架构——提出电路基础模型(CFM)作为统一的表示——而本文则侧重于认知执行层。这里探讨智体工作流如何超越这一基础,从静态感知过渡到动态的自主行动,有效地从“大脑”(模型)演化为“工程师”(智体)。
智能设计4.0:从工具到智体。必须更清晰地区分传统自动化和新兴的自主性。以往的EDA工具,即使是那些经过机器学习(第二阶段)增强的工具,也仍然以自动化的方式运行:它们是确定性的点解决方案,本质上需要“人机交互”来连接不相连的任务。相比之下,智能设计4.0代表自主性:智体能够感知全局流程上下文,规划多步骤策略并进行自我纠错,从而将人类的角色转变为监督性的“在环”位置。
简而言之:传统人工智能优化的是“扳手”(工具),而智体人工智能旨在自动化“工程师”使用扳手进行操作。如图的最终阶段所示,这些配备“推理-行动-反思”循环的自主智体能够解读模糊的意图,协调复杂的工具链,并从执行日志中学习,从而迭代地改进设计。
革命还是炒作?尽管愿景雄心勃勃,但大型模型在硬件设计中的应用仍面临严峻挑战,包括幻觉、数据稀缺以及黑盒 EDA 工具的不透明性。He [6] 对 LLM 在代码生成、验证和优化方面的表现进行了批判性评估,指出尽管进展令人振奋,但在实现愿景中描绘的真正工业级“自动驾驶”之前,仍然存在巨大的差距。此外,Xu [2]强调,业界必须超越表面指标,建立以端到端功耗、性能和面积(PPA)为重点的严格基准,以确定这一技术转变是否代表着真正的革命。
本综述的范围。鉴于数字电路和模拟电路在设计范式上的根本差异——前者严重依赖逻辑综合和离散优化,而后者则依赖于连续的物理方程——本综述明确聚焦于数字芯片设计。探讨智能工作流程如何改变标准的RTL到GDSII流程。
构建自主芯片设计系统需要两项基本能力:“感知”能力,用于精确表示数字电路的多模态结构;以及“大脑”能力,用于推理、规划和执行复杂的设计流程。
电路基础模型 (CFM)
大语言模型 (LLM) 擅长处理文本硬件描述语言 (HDL),但电路本质上是一个多模态实体,包含网表图、逻辑真值表和几何布局。为了弥合语义理解与物理现实之间的差距,电路基础模型 (CFM) 作为AI原生EDA的感知层应运而生[3]。
多模态表示学习。Fang[5]将CFM分为基于编码器和基于解码器的架构,强调有效的模型必须统一文本、图和布局模态。CircuitFusion[7]是该领域的一项开创性工作。通过采用对比学习策略,将硬件代码、结构图和功能摘要的潜在嵌入对齐,该方法能够捕捉电路的内在属性(例如并行执行和功能等效性),从而实现跨不同下游任务的零样本迁移。通用的无监督表示框架[8]进一步支持这些异构模态的理论对齐。这建立在早期的大型电路模型[9]概念之上,该概念首先指出需要统一的表示方法来应对现代SoC日益增长的复杂性。
可扩展的图学习。虽然多模态表示确保了跨域的语义对齐,但实际部署需要在不发生计算崩溃的情况下处理海量图。电路表示的一个关键挑战是可扩展性;现代SoC包含数十亿个节点,导致传统的图神经网络(GNN)面临内存瓶颈和过度平滑的问题[10]。为了解决这个问题,DeepGate4[11]引入一种专为逻辑综合而设计的可扩展图转换器。它采用一种更新策略,将内存复杂度降低到亚线性水平,在大规模基准测试中显著优于现有方法。类似地,Luo [12] 提出 DE-HNN,一种有向等变超图神经网络,以更好地建模标准图无法捕捉的网表中的高阶交互。此外,流形图嵌入 [13, 14, 15] 和异质图学习 [16] 的最新进展为捕捉电路网表的复杂非欧几何结构提供有前景的方向,并利用几何结构保持 [17]。最后,为了帮助人们理解这些潜空间,结构保持可视化 [18] 和可解释降维 [19] 技术变得越来越重要。
域自适应大语言模型
通用大语言模型难以应对硬件设计的冗长语法和专有协议。域自适应预训练 (DAPT) 和token化器优化对于使“大脑”适应EDA至关重要。
Verilog token化器优化。标准token化器(例如 BPE)对 Verilog 代码的分割效率低下;实际上,通用 LLM token化器通常会将 always 或 posedge 等常用关键字拆分成多个子tokens。为了解决这个问题,域特定模型采用自定义token化器,其特点是:
- 合并频繁关键字:将高频 Verilog 结构(例如 module、assign、always ff)视为单tokens。
- 保留缩进:将对可读性至关重要的空白结构编码为专用tokens。
实际上,这些优化可以显著减少 RTL 的token数量,从而在分析长设计时提高上下文的有效利用率。
动态知识集成:RAG 的必要性。尽管域自适应预训练 (DAPT) 将通用知识(参数知识)注入模型权重,但它从根本上无法解决工业级 EDA 的动态性和专有性问题。工艺设计工具包 (PDK)、内部设计方法和工具的快速更新几乎每周都会发生,使得持续预训练变得不切实际。因此,检索增强生成 (RAG) 已从辅助增强功能转变为工业级 EDA 智体的必备组件。
RAG 通过允许 LLM 在推理过程中查询外部非参数知识库来弥补这一差距。这对于将智体操作与真实规范联系起来至关重要,例如在制定功耗优化策略之前从代工厂工艺文件中检索电压阈值。
EDA 专用 RAG 的技术挑战。将 RAG 应用于硬件设计面临着超越通用文本检索的独特挑战,这主要是由于 EDA 文档的异构性和结构化特性。首先,关键信息通常并非存在于散文中,而是存在于密集的表格中,例如 Liberty (.lib) 文件中的非线性延迟模型 (NLDM) 或数据手册中复杂的寄存器图。标准的文本嵌入模型通常无法捕捉到正确解读这些值所必需的行列关系。其次,工程 PDF 文件包含多列布局、嵌入式图表和跨页表格,这些都会破坏标准解析工具的处理能力。简单的分块策略(例如,固定token窗口)通常会将表格的字幕与其数据行分离,或者将设计规则与其关键脚注分离,从而使检索的上下文对智体而言毫无用处。
工业界最新技术:参考框架
为了使学术研究与工业现实接轨,必须以领先的商业人工智能驱动工具为基准进行评估。
• Synopsys DSO.ai:利用强化学习 (RL) 来探索物理设计参数的庞大状态空间。其状态空间 S 包含拥塞图和时序裕量分布,而其奖励函数 R 是 PPA 指标的加权和 (R = w1 · TNS + w2 · Power + w3 · Area)。
• Cadence Cerebrus:凭借迁移学习脱颖而出,使系统能够将从先前 7nm 设计中学习到的优化策略应用于新的 5nm 项目,从而显著加快收敛速度。
• Google AlphaChip:利用基于边缘的图神经网络 (GNN) 学习电路连接的嵌入,彻底革新宏布局,证明了基于学习的方法在布局规划方面可以超越人类专家。
智体认知架构
从被动的“副驾驶”到主动的“自动驾驶”的转变依赖于智体的认知架构。这包括赋予 LLM 推理设计状态、规划多步骤操作以及在智体群体中协作的能力。如图所示:
推理与规划(ReAct & CoT)。简单的输入输出生成不足以应对复杂的流程。智体现在采用推理+行动(ReAct)范式[20]。例如,当遇到综合错误时,智体并非仅仅猜测修复方案;它首先生成思维轨迹(“日志显示存在组合逻辑循环”),执行工具(“运行时序分析以定位路径”),观察输出,然后规划修正方案。这种思维链(CoT)过程将LLM从生成器转变为推理器[21]。
多智体协作模式。为了克服单个智体的上下文限制和偏差,多智体系统(MAS)正逐渐成为标准[1]。一种常见的模式是分层规划,如ChatEDA[22]所示,其中控制器智能体将高级规范分解为子任务,并将其分发给专门的工具执行智能体。另一种关键方法是生成器-Critics循环。在 AnaFlow [23] 等框架中,不同的智体扮演着不同的角色——一个智体生成电路拓扑结构,而另一个智体则根据设计约束对其进行评估,从而确保决策的稳健性和可解释性。这与新兴的逻辑-驱动多智体框架 [24] 相一致,这些框架集成严谨的推理路径来处理复杂的领域特定约束。最后,对于诸如 PPA 平衡之类的主观权衡问题,智体采用辩论(Debate)和共识(Consensus)机制,其中多个智体提出相互竞争的解决方案,并通过辩论其优劣来跳出局部最优解 [25]。
前端设计——将自然语言规范翻译成功能寄存器-传输级 (RTL) 代码并进行后续验证——是 EDA 领域中智体 AI 最为成熟的领域。该领域的研究轨迹经历从最初的“一次性生成”[34] 到稳健的“迭代修复”,再到最近的“自主验证”智能体的显著演变。根据 Revisiting VerilogEval [35] 的最新基准测试,像 GPT-4o 这样的最先进模型在规范到 RTL 任务上的通过率达到 63%,但在处理复杂的多模块设计方面仍然存在显著差距,这就需要智体工作流程。
如图所示智能RTL修复的双循环架构:内循环(例如AutoChip [26])依赖于文本编译器日志来修复语法错误;外循环(例如VerilogCoder [28])通过抽象语法树(AST)分析追踪仿真波形,弥合模态差异,并将信号不匹配转换为自然语言反馈,用于语义逻辑修复。
范式转变:从副驾驶到智体。区分“副驾驶”和“智体”范式至关重要。副驾驶系统(L2)作为智能自动补全引擎,每一步都依赖于人类的意图。相比之下,智体系统(L3+)作为自主编排器运行。它们拥有“推理-行动-反思”循环,使其能够自我纠正错误,并在无需人工干预的情况下为每个子任务调用工具。
如表所示前端设计智体框架概述(RTL 生成、修复和验证):
迭代代码生成与修复:从语法到语义
行业应用表明,一次性生成不足以满足硬件设计的零容错特性。因此,“生成-编译-反馈-修复”循环已成为标准范式。
语法循环:编译器引导的反馈
AutoChip [26] 通过构建基于文本的反馈循环,为这种范式奠定了基础。
机制与数据流:AutoChip 并非盲目地重新生成代码,而是充当日志解析器。数据流如下:代码 → 编译器 → 错误日志 → LLM。它从 Iverilog 或 Yosys 等 EDA 工具中提取特定的错误消息(例如,语法错误、端口宽度不匹配),并将其附加到原始提示符,指示 LLM“仅修复已识别的行”。虽然这种方法能够有效确保代码的语法正确性,但它对电路的功能却一无所知。类似地,ChipGPT [36] 采用一个“输出管理器”在最终输出之前对代码进行清理,这进一步说明使用辅助智体来强制执行语法正确性的趋势。
语义循环:基于抽象语法树 (AST) 的波形跟踪
为了解决功能正确性问题,VeriAssist [27] 和 VerilogCoder [28] 等框架引入语义修复循环,以弥合文本 RTL 和二进制仿真波形之间的模态差异。
机制和数据流:与 AutoChip 的纯文本反馈不同,VerilogCoder 直接操作仿真波形。当测试平台失败时,智能体利用抽象语法树 (AST) 分析将故障输出信号映射回其驱动逻辑块。它追踪信号依赖链(例如,输出 ← 寄存器 A ← 线 B),以定位值不匹配的根本原因。至关重要的是,正如 [37] 中所述,解释硬件状态需要进行转换;VerilogCoder 将特定的时间戳数据转换为自然语言描述(例如,“信号 ack 在第 5 个周期保持低电平,但预期为高电平”)。这使得智体能够基于功能因果关系而非仅仅依赖编译器报错来执行“深度语义修复”。VeriAssist 通过引入“自验证”机制对此进行了补充,在该机制中,智体在设计的同时生成测试平台,从而创建一个独立的仿真循环,以便在人工审核之前验证自身的逻辑。
数据基础设施。这些修复智能体的成功依赖于高质量的训练数据。 CraftRTL [29] 通过采用“合成错误注入”策略来解决数据稀缺问题,创建海量的“错误代码”和“修复代码”配对数据集。此外,基于扩散的数据增强技术 [38] 也被用于生成高保真度的合成训练样本,而无需真实值对。此外,OpenLLM-RTL [39] 近期发布一个包含 8 万个指令-代码对和 7000 个已验证样本的大规模开放数据集,为训练这些特定领域的修复模型提供了必要的基础设施。
幻觉缓解和形式化对齐
虽然修复循环可以在生成后修复错误,但要防止错误发生,则需要将 LLM 的概率特性与确定性的硬件协议相匹配。HaVen [30] 通过一种称为结构化指令-思维链 (SI-CoT) 的提示工程技术解决了这个问题。
SI-CoT 的机制。标准的 LLM 经常会产生时序违例的假象,因为它们逐个生成代码token,而没有对时钟周期的全局视图。SI-CoT 通过在生成任何 Verilog 代码之前强制执行严格的推理结构来缓解这个问题。提示明确要求模型执行以下操作:
- 概括协议:提取关键信号依赖关系(例如,“valid 必须等待 ready”)。
- 描述状态转换:输出 FSM 的自然语言描述(例如,“当 start 为高电平时,从 IDLE 状态转换到 TRANSMIT 状态”)。
- 生成伪时序图:以文本格式可视化信号交互。这种“先思考后编码”的约束迫使模型将其推理建立在工程逻辑之上。为了实现数学上严谨的
- 优化,ASPEN [31] 采用一种神经符号方法。它使用LLM作为启发式指南来探索优化空间,而实际的重写操作则在等价图 (E-Graph) 上执行,从而保证所有优化步骤在数学上都是等价的,并且不存在任何虚假逻辑。
智体验证和调试
验证耗费设计周期的 60% 以上。人工智能智体正从代码助手演变为自主的“人工智能验证工程师”。
神经符号验证。当前基于 LLM 的验证的一个关键瓶颈是生成的断言中语义错误率很高。诸如 AssertEval [40] 之类的基准测试表明,商业 LLM 在 63% 的情况下会产生语义错误的断言。为了解决这个问题,SANGAM [41] 提出了一种神经符号方法,将断言生成建模为蒙特卡洛树搜索 (MCTS) 问题。它并非一次性生成,而是探索一棵可能的时间运算符树,并利用仿真反馈来剪枝无效分支。这使得范式从“文本生成”转变为“逻辑搜索”。
形式化反馈集成。VeriMaAS [42] 超越仿真,将形式化验证 (FV) 直接集成到智体循环中。与仅显示发生什么的仿真日志不同,FV 工具提供一个反例跟踪——导致故障的精确状态序列。VeriMaAS 将此跟踪翻译成自然语言,使智体能够“看到”错误的精确因果关系,从而比标准微调方法提高 7% 的通过率。
从强化学习到智体规划。传统上,强化学习 (RL) 用于最大化验证覆盖率,例如基于 DDPG 的方法 [43]。然而,强化学习(RL)在理解高层规范方面存在困难。Saarthi [32] 展示了一种转向智体规划的方法,其中LLM解析英文规范,自主制定验证规划并调用形式化工具来运行断言。PRO-V-R1 [44] 通过采用间接策略进一步增强这一能力:智体编写 Python 脚本来生成高精度测试向量,而不是直接生成原始数据位。
多模态调试。在物理验证方面,DRC-Coder [33] 利用多模态智体来生成和调试设计规则检查(DRC)文档。通过将视觉布局分析与文本规则推理相结合,它在标准单元基准测试中取得完美的 F1 分数,显著优于仅使用文本提示的方法。在功能调试方面,FVDebug [45] 利用因果图驱动智体对复杂的依赖链进行逆向推理,从而准确地定位验证失败的根本原因。
案例研究:微架构与RTL
为了说明智体EDA在前端的实际可行性,考察两个关键案例研究,涵盖微架构定义和对话式RTL生成。
MCT-Explorer:人工智能在微架构定义中的应用。MCT-Explorer [46] 从RTL向上游延伸,展示人工智能在定义微架构本身方面的价值。确定缓存大小、发射宽度和ROB深度等参数是一个庞大的非凸优化问题。通过将蒙特卡洛树搜索(MCTS)与贝叶斯优化相结合,MCT-Explorer能够在这个高维空间中导航,找到帕累托最优配置。在Gemmini SoC基准测试中,与传统方法相比,它将平均参考集距离(ADRS)提高30.9%,证明智体可以在编写任何代码之前优化“蓝图”。
ChipChat:对话式设计的可行性。 ChipChat [47] 是首个成功演示人工智能设计芯片流片的案例。通过 100 多次对话,工程师引导LLM生成基于 8 位累加器的微处理器的 Verilog 代码。虽然该方案证明其可行性,但整个过程严重依赖人工工程师来解读错误日志并提示模型进行修复。这种“人机交互”的局限性凸显自主反馈回路(例如 AutoChip)的必要性。
物理设计,尤其是布局布线(P&R),是EDA流程中计算量最大的阶段。该领域正经历着一种根本性的二元对立:算法中心方法正在用生成式物理(扩散)取代启发式算法,而智体中心方法则利用LLM来协调传统工具。
布局范式转变:从顺序强化学习到生成式扩散
多年来,强化学习 (RL) 一直主导着宏单元布局,谷歌的 AlphaChip(前身为 Circuit Training)[48] 就是最好的例证。然而,由于强化学习固有的可扩展性限制,目前业界正转向生成式人工智能。
强化学习的瓶颈:强化学习方法将布局问题建模为顺序马尔可夫决策过程 (MDP)。智体逐个放置宏单元,并优化奖励函数 R(例如,负线长)。
• 机制限制:由于智体需要观察部分放置的状态 S_t 来确定下一个动作 A_t,因此推理时间会随着宏单元数量的增加呈线性 O(N) 增长。
• 泛化问题:正如 [49] 中强调的,强化学习智体往往会过拟合训练过程中遇到的特定网表拓扑结构。它们记忆的是“解决方案”而非“布局规则”,因此每次设计新的芯片都需要耗费大量资源进行重新训练(数百GPU小时)。
扩散模型:学习布局分布。相比之下,扩散模型[49, 50]将布局重新定义为条件去噪任务。它们不再进行顺序决策,而是学习在给定网表c的条件下,有效单元坐标x的联合概率分布p_θ(x|c)。去噪机制:
- 训练:模型学习逆转正向扩散过程,该过程逐步向有效布局添加高斯噪声,直至其变为随机噪声。
- 推理(布局):从纯噪声开始,模型在网表连接梯度的指导下迭代地对坐标进行“去噪”。
这种范式支持零样本泛化:由于模型学习逻辑簇的内在空间关系(即连接的底层物理特性),因此它可以在亚线性时间内为未见过的网表生成有效的布局,在运行效率方面显著优于强化学习(RL)。
关键分析:精度差距与混合工作流程。尽管取得了这些进展,生成模型在工业应用中仍然面临着“精度差距”。扩散模型虽然非常适合全局结构(宏布局),但它缺乏详细标准单元布局所需的亚像素精度,并且经常产生违反设计规则检查(DRC)的输出。为了弥合这一差距,目前实用的方法采用混合工作流程[49, 53]。在这种范式中,扩散模型充当“全局宏规划器”,利用其跳出局部最优解的能力来确定大型模块的位置。然后固定这些坐标,并将任务交给可微分的解析求解器(例如,DREAMPlace)。
智体作为协调者,而非替代品。认为智体人工智能会取代算法求解器或强化学习是一种误解。实际上,它扮演着层级协调者的角色。智体感知全局设计状态,并像人类工程师使用工具一样,以子程序的形式“调用”扩散模型或解析求解器。这种层级方法结合LLM的推理能力和专用算法的数学精度。例如,TSCompiler [54] 等框架展示高效的编译框架如何支持动态形状模型,并为这种自适应智体执行提供必要的基础设施。类似地,ORFS-Agent [52] 通过在 OpenROAD 流程中自主调整工具参数以关闭 PPA,有效地模拟了后端工程师的工作,从而体现这一点。
如图所示物理设计的视觉比较:
如表所示物理设计中人工智能方法的比较:以算法为中心VS以智体为中心。
如图所示宏布局范式转变:从顺序式到生成式。(a) 强化学习(例如 AlphaChip)将布局视为一个顺序博弈,推理时间随宏数量线性增长。(b) 扩散模型(例如 DCTdiff [50])将布局建模为一个并行去噪过程,学习有效布局的联合概率分布,从而实现零样本泛化。
用于可迁移物理学的图学习
生成模型处理坐标,而图神经网络 (GNN) 对于编码网表的拓扑“物理特性”至关重要。一个关键挑战是电路的异构性:网表包含两种不同的节点类型(单元和网络),它们之间通过超边连接。
TransPlace:解耦拓扑和几何。TransPlace [51] 通过提出一种特定领域的 GNN 架构来解决这个问题。
• 异构消息传递:与假设节点同质的标准 GraphSAGE 不同,TransPlace 采用二分更新方案。它在单元节点和网络节点之间交替传递消息,有效地捕获了电路连接的超图结构。
• 相对位置编码:为了解决标准 GNN 具有置换不变性(忽略空间几何)的问题,TransPlace 引入了相对位置编码。这使得模型能够学习“单元流”——预测单元相对于其相邻单元的移动位置,从而最大限度地减少拥塞。
这种架构支持迁移学习:在小型 RISC-V 设计上训练的模型可以成功预测大型、未见过的商用 TPU 上的拥塞热点,从而减少了从头开始训练的需要。
闭环:跨阶段优化
智能 EDA 的最终优势不仅在于优化各个阶段,还在于闭合前端逻辑和后端物理之间的反馈回路。在传统流程中,布线过程中发现的时序违例通常需要手动提交启发式驱动的 ECO(工程变更单)或完全重写 RTL 代码。
基于证据的反馈机制。最近的实证研究验证这种闭环方法的有效性。AutoChip [26] 证明,通过集成编译器反馈,与零样本基线相比,代码生成成本可以降低 89.6%,同时成功率提高 5.8%。这证明混合策略的经济可行性,该策略将用于生成的小型模型与用于反馈驱动修复的大型模型相结合。此外,PEFA [55] 通过引入专门的“日志摘要智体”解决原始 EDA 日志的“信息过载”问题,该状态将数千行仿真输出提炼成结构化的、可操作的见解,供推理智体使用。
通过进化智体进行 PPA 优化。除了正确性之外,智体现在还能够优化功耗、性能和面积 (PPA)。REvolution [56] 引入了一个进化计算框架,其中智体维护一个设计群体,并迭代地应用“重构”和“融合”算子。实证结果表明,功耗降低了 24.5%,RTLLM 基准测试的通过率提高了 24.0%,这有力地证明了智体工作流程可以在多目标优化方面超越人工编写的基线。
智体反馈循环。新兴框架使智体能够自主地弥合这一差距。通过解析后端报告(例如,时序裕量、拥塞图),智体可以推断物理违规的根本原因,并将其映射回源 RTL 代码。例如,智体可能识别出某个模块过深的逻辑深度导致了负裕量,并自主重写 Verilog 代码以插入流水线级。这种“RTL-GDSII-RTL”循环代表从线性自动化到循环式、自改进自主性的转变,这是数字设计领域独有的能力,因为在数字设计领域,逻辑和物理通过标准单元紧密相连。
案例研究:自主流程编排
ChatEDA:自主工具编排。ChipChat 专注于前端代码生成,而 ChatEDA [22] 将自主性扩展到后端 RTL 到 GDSII 的流程。它作为一个分层控制器,将高级用户请求(例如,“运行综合并优化面积”)分解为可执行的工具脚本(Tcl/Python)。通过对特定领域的工具手册进行 LLaMA-2 模型(AutoMage)的微调,ChatEDA 在任务规划方面实现了 98.3% 的成功率,这表明智体无需人工干预即可有效地编排复杂的多阶段物理设计流程。
如表所示跨阶段反馈框架的实证比较:
向智体EDA的过渡带来了双重现实:自主智体虽然显著提高了生产力,但也扩大了攻击面,因此需要重新评估硬件安全性和信任度。同时,对这些智体的验证需要新一代的基础设施,超越简单的代码指标,实现全面的性能评估。
对抗动态:智体与智体的安全
EDA智体的自主性将硬件安全重塑为一场动态的“猫鼠游戏”。LLM的双重用途意味着,用于优化设计的推理能力同样可以被用于恶意目的。这就需要同样智能的防御姿态,从而形成一种攻防智体共同演化的对抗动态。
攻击智体:自动化红队演练和隐蔽性。与静态的、预定义的硬件木马不同,智体攻击者可以自适应地优化攻击,以实现最大程度的隐蔽性。近期研究表明,智体可以扮演复杂的“红队”角色。TrojanStego [60] 揭示了智体可以作为隐写载体,在不改变功能的情况下,通过代码结构巧妙地泄露隐私敏感的设计信息。这表明智体有可能利用数字逻辑的复杂性来隐藏恶意意图。
防御智体:认知和意图分析。基于特征匹配的传统检测方法通常无法应对这些新型的自适应攻击。因此,防御机制必须提升到认知层面。TrojanWhisper [61] 利用LLM的推理能力对RTL代码进行“意图分析”。通过理解逻辑块的功能用途,防御智体可以区分合法的极端情况逻辑和恶意触发(例如,激活非功能信号的计数器)。先进的多元时间序列分析方法 [62, 63] 可以通过检测信号行为中指示潜在木马激活的细微分布变化,进一步增强这些防御措施。
协同进化循环。最终,硬件安全的未来在于这种对抗循环。攻击智体充当自动化红队,生成新颖复杂的攻击向量,而这些向量至关重要地提供必要的对抗训练数据,以增强防御智体抵御此前未知漏洞的能力。
隐私保护协作:联邦学习
人工智能原生EDA的一个根本悖论在于,一方面需要海量数据集来训练强大的模型,另一方面半导体IP又具有严格的专有性。为了解决这个问题,联邦学习(FL)应运而生,成为一项关键的使能技术。
无需IP泄露的协作训练。与需要将敏感网表集中到单个服务器的集中式训练不同,联邦学习允许多个组织(例如,设计公司和代工厂)协作训练一个共享的全局模型,同时将原始数据保留在本地。正如最近的框架所展示的那样[?],本地智体基于其私有设计(例如,专有的RISC-V内核)计算梯度更新,并将这些临时梯度传输到中央聚合器。这确保了特定的电路拓扑永远不会离开安全的本地环境。
异构模型聚合。EDA 的一个独特挑战是不同工艺节点(例如,7nm 与 28nm)的数据异构性。先进的模糊逻辑技术现在采用领域自适应层来聚合来自不同技术节点的知识,从而使在成熟节点上训练的模型能够将可泛化的物理直觉(例如,拥塞模式)迁移到先进节点,而不会违反代工厂的保密协议。
下一代基准测试和数据集
为了严格评估智体 EDA 系统,业界正在将重点从孤立的智体指标转向端到端的工业标准。
从通过率到端到端 PPA。早期的基准测试主要衡量语法正确性(例如 VerilogEval)。然而,ChiPBench [57] 揭示了一个关键的偏差:人工智能算法通常会优化中间智体指标(例如线长),而这些指标与详细布线后的最终功耗、性能和面积 (PPA) 并不完全相关。一个语法正确但功耗却翻倍的设计在工业界毫无用处。因此,未来的基准测试必须是“端到端”的,基于最终的 GDSII 指标(WNS/TNS、面积、功耗)而非中间智体指标来评估智能体。
开放数据基础设施和主权。数据稀缺仍然是一个瓶颈。CircuitNet 2.0 [58] 及其前身 CircuitNet [64] 通过提供源自实际 14nm FinFET 设计的大规模数据集来解决这个问题。开发此类开源数据集对于打破专有 EDA 供应商的“黑盒”垄断、促进民主化、自主化的设计生态系统至关重要。
这些安全动态和基础设施限制,完善实际部署必须解决的问题的图景。
下表所示:智体探索性数据分析研究的基准和数据集。
如图所示:从当前自动化障碍到未来原生人工智能自主生态系统的演进路径。左图展示阻碍向真正自主过渡的主要挑战:幻觉导致的可靠性问题、专有孤岛造成的数据匮乏以及传统“黑盒”工具的不透明性。右图描绘未来的原生人工智能生态系统,其特征是L4级分层多智体自主性、可区分且透明的原生人工智能工具链,以及确保设计可信赖且构造正确的混合神经符号系统。
展望未来,EDA 的发展正蓄势待发,即将从当前 AI 辅助的补丁模式过渡到完全原生 AI 的生态系统 [3]。如图右侧面板描绘这一未来图景。为了阐明这一发展轨迹,本文提出一个标准化的 EDA 自主级别分类体系,如表所示。
如表所示,业界目前正从 L2(副驾驶)过渡到 L3 和 L4(任务/流程自主)。未来的系统很可能采用分层多智体架构,能够执行从规范到 GDSII 的端到端流程,而人类工程师则仅作为意图监督者,而非工具操作员。
为了支持这一转变,可解释性至关重要。人工智能在 EDA 中应用的最大障碍之一是“黑箱”问题。智体工作流通过结构化的执行轨迹(例如,工具调用日志、参数差异、概要原理)提供了一种切实可行的部分解决方案。与不透明的模型权重或原始EDA日志相比,这些跟踪信息提供了易于理解的审计追踪(例如,“由于松弛为负,因此增加缓冲区大小”),从而提高了自动化决策的可调试性和可追溯性。
此外,下一代EDA工具很可能不再仅仅是将LLM封装在传统工具中,而是“原生AI”。一个关键方向是使优化循环在实践中更加可微,例如通过可微代理或梯度感知近似,将PPA目标与设计参数关联起来。这可以补充(而不是取代)离散的、基于启发式的求解器,从而实现更流畅的端到端优化和更优的阶段间权重分配。
最后,为了解决可靠性危机,未来属于融合深度学习模式识别优势和形式化方法严格保证的混合神经符号架构。结合更强大的端到端基准,这些进展勾勒出一条从当今 AI 辅助自动化到芯片设计中可信赖的自主性的连贯路径。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)