《Enhancing computer-aided design with deep learning frameworks: a literature review论文精读》

幽殇默

357人浏览 · 2026-04-06 22:43:45

幽殇默 · 2026-04-06 22:43:45 发布

前言

《基于深度学习框架增强计算机辅助设计：文献综述》
由德国慕尼黑工业大学和宝马集团的学者于2025年发表在ICED25

生成式人工智能（GenAI）通过识别模式、进行预测和生成自动化设计建议，具有进一步革新计算机辅助设计（CAD）的潜力。本文通过系统性文献综述，探讨了GenAI在基于CAD的产品开发中的应用研究现状。综述聚焦于3D建模，概述了当前的主要方法、最常用的数据集以及常见的人工智能模型。从中提炼出GenAI能够增强CAD的四个应用领域：设计生成、设计重建、设计检索和设计修改。总计选取、分析并分类了47篇论文。

1. 引言

几何设计在硬件产品的开发中扮演着基础性角色。从粗略的概念草图开始，设计随着时间的推移逐步演变和细化，最终形成详细的生产形态。在此过程中，可制造性、装配可行性以及成本等因素都是关键的考量。这些需求的复杂性使得3D设计成为一个高度迭代的过程，消耗大量的时间和精力（Vajna, 2022）。自1960年左右以来，计算机辅助设计（CAD）工具被用于支持这一设计过程，实现了3D形状的可视化和开发。为了尽可能提高这一3D设计过程的效率，人们高度重视加速和自动化3D模型的创建与修改。在过去60年中，CAD工具取得了显著发展，并涌现出多种用于自动化CAD流程的方法。这些自动化技术（例如参数化设计或拓扑优化）极大地提升了设计过程的效率和质量，使工程师能够在更短的时间内创造出更复杂的产品（Vajna et al., 2018）。CAD自动化中一个相对较新的方法是生成式设计，它利用算法基于定义的参数和约束生成设计方案。在这一领域，人工智能（AI）算法的兴起开启了新的机遇。AI技术能够识别现有设计中的模式、预测性能，并基于大规模数据集生成自动化的设计建议。因此，AI在CAD应用中的实现，有潜力彻底改变工作流程，通过节省时间使其更加高效和成本有效。然而，随着这些新机遇的出现，也产生了新的问题（Steininger et al., 2024）。如何将AI算法集成到CAD流程中？如何有效地融入历史知识？本文旨在通过系统性文献综述，分析当前在基于CAD的产品开发中使用AI算法的研究现状和方法。本文将重点聚焦于3D设计，概述有前景的方法、最常用的数据集以及常见的AI模型。

2. 技术现状

2.1 CAD中的几何建模

计算机辅助描述几何物体的形状在硬件产品的工程设计和制造中起着核心作用。存在几种不同的建模概念，方法的选择取决于具体问题以及待建模的物体。此外，不同的数据格式会影响后续使用AI算法进行处理的效果。根据数学描述方式，首先可以区分曲线建模、曲面建模和实体建模（Abramowski & Stephan, 1991）。

曲面建模

曲面建模侧重于定义物体的表面，而不描述物体内部的体积。既可使用可解析描述的表面（如平移曲面和直纹面），也可使用不可解析描述的表面（如B样条曲面和NURBS曲面）（Bonitz, 2009）。与曲线的数学描述类似，曲面可以用显式、隐式或参数化形式表示。几何建模中最重要的曲面类型包括：旋转曲面（圆柱、圆锥、球体、圆环、旋转曲面）、拉伸曲面、贝塞尔曲面（有理、非有理）以及B样条曲面（有理、非有理）（Agoston, 2005）。

实体建模

在实体建模中，几何形状被描述为具有确定体积的实体。待描述的实体具有封闭且有方向的表面，并且具备一个共同属性：对于任意一点，可以明确判断该点是在实体内部、外部还是表面上。这在机械设计中经常使用，因为质量、体积等精确的物理属性非常重要。

实体可以通过多种方式建模。为此发展出了多种实体表示方法（表示方案），它们在内存需求、数值精度、复杂性以及转换为其他表示方案的能力方面有所不同。主要分为直接表示方案（例如构造实体几何法（CSG）、标准单元方案或八叉树），其中体积本身被直接描述；以及间接表示方案（例如边界表示法（B-rep）或面片模型），通过边和面进行描述（Abramowski & Stephan, 1991；Agoston, 2005）。

2.2 生成式人工智能模型基础

生成式人工智能（GenAI）是深度学习的一个子集，能够根据输入生成文本、图像或代码等内容。Kretzschmar 和 Damman（2024）给出了最新的概述，并推断当前存在五种关键的GenAI架构。进一步调查所使用的GenAI类型后发现，基于文本的应用占主导地位（Kanbach et al., 2024）。针对AI在CAD中的相关文献研究，以下架构具有重要意义并将进一步详细阐述：（1）变分自编码器（VAE），（2）Transformer，（3）生成对抗网络（GAN）。

变分自编码器（VAE）

VAE是最常使用的自编码器之一，因为与标准自编码器相比，VAE更具概率性，即确定性的潜在向量被均值和标准差向量所替代，用以描述潜在变量的概率分布。基于输入变量，编码器生成潜在变量的分布，解码器则从潜在分布中采样，以生成可能输出的分布（Vasudevan et al., 2021）。

Transformer

Transformer架构是深度学习中的一个基本概念，尤其在自然语言处理领域，并被广泛应用于OpenAI的GPT-3、AI21和谷歌的BERT等主流AI模型中。Transformer基于编码器-解码器架构，可以归类为此类架构。编码器生成输入序列的表示，解码器将该表示与上一轮解码器自身生成的额外输入序列相结合，以生成最终输出。与卷积神经网络不同，Transformer不使用卷积层来生成潜在向量，而是利用自注意力机制（Hirschle, 2022）。Transformer最初因Vaswani等人（2017）的著名论文而受到关注。

2.3 GenAI在CAD中的应用领域

从不同的研究中可以归纳出GenAI能够增强CAD的四个领域（Camba et al., 2016；Krahe et al., 2022；Xingang Li et al., 2023；C. Zhang & Zhou, 2019；S. Zhang et al., 2023）。设计生成涉及创建设计新方案和探索设计空间，而设计重建、设计检索和设计修改则基于已有的设计概念。在设计重建中，设计被使用不同的表示方法重新构建；设计检索是指寻找已有的相似设计的过程；设计修改是指能够调整现有CAD模型以适应新的应用需求。本文献综述的重点是前三个领域（见图1）。

在这里插入图片描述

3. 系统性文献综述

综述的方法基于两个指导文献检索过程的研究问题（RQ）。为了进一步结构化，内容范围围绕三个主要标准进行定义：人工智能、计算机辅助设计和产品开发。每个标准由若干关键词和同义词组成，这些词来源于其他基础性工作。文献检索使用Scopus引文数据库进行，时间跨度为2014年1月至2024年4月。最后，根据与研究问题和内容范围的一致性对结果进行了筛选。进一步分类聚焦于设计生成、设计重建和设计检索。

3.1 研究问题

本综述基于两个研究问题（RQ），它们提供了该领域的概述以及进一步描述具体领域的关键词。

RQ1：在以下三种几何设计类型中，哪些人工智能方法可以应用于CAD模型的产品开发？
a. 设计生成
b. 设计重建
c. 设计检索
RQ2：这些研究方法在网络架构、数据集和表示方法方面有哪些特征？

3.2 内容范围与关键词

我们使用以下三个标准来定义搜索与几何设计中AI相关文献的内容范围：（1）人工智能，（2）计算机辅助设计，以及（3）产品开发。每个标准由若干关键词和同义词组成，如表1所示。选择这些关键词的原因源于Shabestari等人（2019）的工作，他们简要概述了关于在产品开发早期阶段融入机器学习（ML）的研究现状。

表1. 按各自设计方法对综述论文的分类

机器学习	计算机辅助设计	产品开发
人工智能*	深度CAD / DeepCAD	工程
神经网络	CAD建模	产品工程
深度学习	建模	设计
生成模型*	构建*	产品设计
自回归	设计草图	对象设计
	系统分析	早期设计阶段
	设计意图	规格说明
	拓扑

此外，我们还添加了自己的关键词，并查阅了Seff等人（2021）、Xu等人（2022）、Bickel等人（2023）和Camba等人（2016）论文中的作者关键词，若认为适合两个研究问题则予以添加。我们的文献研究聚焦于CAD模型以及可应用于CAD的方法，而排除了产品开发中的创意生成和仿真。我们也只关注CAD中的几何设计部分。

3.3 文献检索过程

如图2所示，最终有47篇文章符合综述范围。仅在Scopus引文数据库中进行检索，时间范围为2014年1月至2024年4月，因为最相关的文章（如初始种子论文：Bickel et al., 2023; Camba et al., 2016; Seff et al., 2021; Shabestari et al., 2019; Xu et al., 2022）均发表于2016年之后。总共使用了四个检索字符串，由表1中的关键词组成。每次使用不同组合的每个类别关键词和同义词，以不同的分组方式概览多个研究领域。我们用"AND"连接三个标准，同时用"OR"连接各自对应的同义词和关键词。这四个字符串的初始检索得到了1270篇种子文章（含重复）。每个检索字符串的确切关键词及其分组如下：

字符串1：TITLE-ABS-KEY((“Artificial Intelligence*” OR “Machine Learning” OR “Neural Network” OR “Deep Learning”) AND (“Computer-Aided Design” OR “CAD Modeling” OR “Modeling” OR “Constr*”) AND (“Product Development” OR “Engineering” OR “Product Design”))
字符串2：TITLE-ABS-KEY((“Specifications” OR “Topology” OR “Machine Learning” OR “Design” OR “Product Development” OR “System Analysis”) AND (“Design Sketch” OR “Generative Model” OR “Product Engineering” OR “Design intent” OR “Early Design Phasis” OR “Auto-regressive”) AND (“Computer-Aided Design” OR “Object Design” OR “Product Design”))
字符串3：TITLE-ABS-KEY((“Machine Learning” OR “Artificial Intelligence*” OR “Deep Learning” OR “Generative Model” OR “Auto-regressive”) AND (“Computer-Aided Design” OR “Product Design” OR “Object Design” OR “Design Sketch” OR “Design Intent”) AND (“Product Development” OR “Product Engineering” OR “Early Design Phasis”))
字符串4：ALL(“Deepcad” OR “deep cad”)

图2. 文献检索过程

3.4 筛选方法

对所有文章的标题和摘要进行审阅，并根据定义的内容范围和研究问题评估其重要性。最终，确定47篇文章为最相关文献，随后对这些文献进行进一步审阅，并为本论文汇总了所选文献的结果。参考文献列表可通过以下链接查看：文献列表。从最初的47篇论文中，选出27篇用于讨论部分的最终表格分析。排除那些提供该领域其他研究概述或仅关注2D创意生成而未将框架扩展到3D形状的论文，以便基于表示方法、输入、输出和设计方法等特征对多种生成式建模框架进行比较。

4. 文献结果

表2展示了所有被综述论文按其各自设计方法的分类。

设计生成

该领域旨在弥合人类创造力与计算机效率之间的差距，以创建设计新方案。可以区分CAD模型的随机生成和目标导向生成。前者侧重于为CAD软件自动生成训练数据集中未出现过的新的3D形状。在这一类别中，Wu等人（2021）发表的“DeepCAD”是随机设计生成领域的领先基础架构之一。他们的数据集（178,238个模型）及其架构为许多其他生成式设计模型（如“SkexGen”（Xu et al., 2022））提供了基础。在他们的工作中，他们将常用于自然语言处理的Transformer网络架构应用于CAD操作序列领域。通过这种方式，生成模型生成的CAD操作序列与CAD程序的实际工作方式类似。目标导向模型生成的第二个领域涉及头脑风暴创意和创建初始设计概念这一耗时的过程（Xingang Li et al., 2023）。传统上，设计师依赖自身知识和经验来草绘和描述新想法。因此，设计生成旨在通过生成模型来自动化这一过程，这些模型分析现有设计以提出全新概念，从而实现对设计空间的探索。Krahe等人（2020）通过引入I-GAN朝这个方向迈出了第一步，I-GAN不仅将3D对象的潜在向量表示作为输入，还将用户指定的特征作为输入。

设计重建

设计重建帮助设计师将2D或3D输入转换为另一种表示形式。考虑到显示一个物体的多种方式（点云、体素、网格等），显然这是一个重要的研究课题，可以节省时间并优化设计过程。分析收集到的文献后发现，有多种方法可以应对这一挑战。例如，Hu等人（2023）借助基于Transformer的模型，将三视图的2D线图转换为3D CAD模型。作者认为，2D工程图通常被设计师用于实现、更新和分享他们的想法，尤其是在初始设计阶段。此外，S. Zhang等人（2024）开发了一个基于Transformer的网络，将B-rep模型转换为一系列可编辑的参数化基于特征的建模操作。

表2. 按各自设计领域对综述论文的分类

设计领域	文献
设计生成	S. Zhang et al. (2024); Xueyang Li et al. (2023); Xu et al. (2023); Wu and Zheng (2022); Xu et al. (2022); Yang and Pan (2022); Krahe et al. (2021); Nobari Heyrani et al. (2021); Para et al. (2021); Wu et al. (2021); Chen and Ahmed (2020); Krahe et al. (2020); Kreis et al. (2020); Saha et al. (2020); Skarka and Kadzielawa (2017)
设计重建	S. Zhang et al. (2024); Hu et al. (2023); Xingang Li et al. (2023); Xu et al. (2023); Camba et al. (2022); Plumed et al. (2022); Yang and Pan (2022); Seff et al. (2021); Saha et al. (2020); Shabayek et al. (2020)
设计检索	Bickel et al. (2023); Herzog and Suwelack (2023); Krahe et al. (2022); Starly et al. (2020); C. Zhang and Zhou (2019)

设计检索

设计检索方法支持设计师查找与新建设计相似的已有设计。通常情况下，产品是代际开发的，产品的某些部分会更新，而其他被证明是良好解决方案的部分则改动不大。因此，只有一小部分新产品是需要全新开发的零件，设计师可以基于现有的解决方案和知识进行构建。为了避免在CAD程序中从头开始构建每个零件造成多余的工作，设计师可以重用和修改现有的3D CAD对象以适应更新的条件，更好地利用现有知识，并在产品开发阶段节省时间并最终降低成本（Krahe et al., 2022）。大多数CAD检索方法包含两个步骤。首先，每个3D CAD模型由一个描述符表示，该描述符可以基于几何形状（基于模型）或对象信息（基于语义）。其次，将输入查询描述符与数据库中的模型描述符进行比较，以提取与输入查询最匹配的对象（C. Zhang & Zhou, 2019）。一个例子是Krahe等人（2022）的工作，他们将CAD模型转换为点云，然后指定一个自编码器从中提取对象的特征。下一步，将提取到的捕捉了关键特征的潜在表示与其他对象的潜在向量进行比较。与传统的基于属性的检索方法相比，通过潜在向量进行检索能够提供考虑到对象更详细特征的结果。

5. 结果分析

5.1 网络架构

在3D形状合成的网络结构方面，框架通常依赖于编码器-解码器架构、GAN、自编码器和Transformer。

GAN

观察到GAN常用于设计生成方法，因为它们能够生成作为潜在向量表示的新对象（例如 Wu et al., 2021）。GAN的输出是随机的（例如 Wu et al., 2021；Wu & Zheng, 2022；S. Zhang et al., 2024），这也是条件GAN的优势所在——Krahe等人（2020）在其框架中引入的条件GAN既能探索设计空间，又能通过特征规范控制输出。然而，Chen和Ahmed（2020）指出，GAN中的学习可能比较困难，因为它们训练时相当不稳定，并且常常遭受模式崩溃（mode collapse）——生成器开始仅从少数模式中生成样本，而忽略了其他类别。因此，像PaDGAN（Chen & Ahmed, 2020）这样的网络专门解决了GAN的模式崩溃问题，以生成更多样化的解决方案。

自编码器

除了GAN，自编码器也是一种很好的替代方案，并被用于所有三个领域：设计生成、设计检索和设计重建。其用途广泛，因为自编码器网络可以将不同类型的3D输入数据转换为紧凑的潜在表示，用于：

设计检索中的向量可视化和聚类（如 Krahe et al., 2022）；
通过潜在空间中的向量插值生成新数据，用于设计生成（如 Saha et al., 2020 和 Xueyang Li et al., 2023）；
通过对量化码进行解码来重建原始CAD模型，如 Xu et al., 2023 所实现。

VAE作为自编码器的一个子类，因其潜在空间的概率分布以及插值生成新潜在向量的能力，更多地用于设计生成目的。

Transformer

CNN主要用于设计检索方法，因为其架构能以相对较低的成本实现最高的图像识别精度。因此，它们适用于基于视图的3D CAD模型检索框架，如 C. Zhang 和 Zhou（2019）的工作。许多使用的框架也基于Transformer（Vaswani et al., 2017），因为它们的自注意力机制使Transformer能够将当前状态的信息传播到下一步预测模块（Seff et al., 2021），并动态权衡不同输入部分的重要性。这种机制通过考虑整个输入上下文，更有效地捕获数据中的依赖关系。基于Transformer的模型最初是为自然语言处理开发的，但由于它们处理序列数据的能力，也可以用于序列生成任务（例如 Xu et al., 2022；Wu et al., 2021；Para et al., 2021）。

5.2 数据集

在27篇综述论文中，有17篇没有具体说明训练使用了哪个数据集。分析提及数据集的10篇论文，最常用于训练和测试生成模型的数据集是：ShapeNet（Chang et al., 2015）、DeepCAD（Wu et al., 2021）、Fusion360（Willis et al., 2021）和 SketchGraphs（Seff et al., 2020）。图3展示了每个数据集被使用的频率，其中一些论文使用了不止一个数据集。

ShapeNet 是一个常用的3D对象数据集，由斯坦福大学、普林斯顿大学和芝加哥丰田技术研究所的研究人员开发。它包含超过3亿个模型，涵盖3,135个类别，由3D形状、3D CAD模型和网格组成。由于其规模庞大，该数据集有多个子集，如 ShapeNetCore、ShapeNetSem 和 ShapeNet Parts。在我们的分析中，ShapeNet 特别用于训练和验证设计生成框架。

与 ShapeNet 不同，其他三个数据集被归类为基于CAD的数据集。DeepCAD 数据集由 Wu 等人（2021）为其框架训练而新创建。它包含178,238个CAD模型及其CAD构建序列，基于 ABC 数据集（Koch et al., 2019）和 Onshape 的CAD仓库。Fusion360 是一个类似的数据集，但比 DeepCAD 小得多，大约有8,000个CAD设计。SketchGraphs 数据集和 Fusion360 都包含定义几何元素之间关系的约束，但只有 SketchGraphs 引入了一个生成式建模框架，提供了一种从零开始创建新CAD模型的结构化方法（Para et al., 2021）。DeepCAD 和 SketchGraphs 主要用于设计生成和设计检索框架。

图3. 数据分析中数据集使用频率（10篇论文）

5.3 表示方法

训练数据以及输入和输出数据以不同的格式呈现。我们研究了如何表示几何形状，以便在几何深度学习中进一步处理。在我们的分析中，网络通常使用不止一种表示方法，并且输入和输出的表示方法常常不同。图4显示了每种设计方法中表示方法的分布，以及合并三个设计方法类别后的总体分布。

对象表示为3D CAD模型出现得最频繁，其次是点云、草图、网格、图结构和体素。特别是网格、点云和体素网格是生成式建模中流行的表示方法，因为与CAD模型相比，它们由于分辨率粗糙而保真度较低，几何细节更少，结构信息也更少。点云很流行，因为它们可以从各种3D格式中派生，是3D对象的一种通用表示。它们灵活、内存效率高，并且与自编码器、VAE和GAN等框架兼容（Saha et al., 2020）。然而，点云的点没有特定的排序顺序，因此CNN的卷积无法应用于它们。此外，点云只显示整体形状，无法描绘几何细节和物体的拓扑结构，这使得将点云转换为网格具有挑战性。

图4. 设计类别中表示方法的分布

体素通过立方体形状的网格来近似物体，如 C. Zhang 和 Zhou（2019）所做。体素结构自然适用于具有三维卷积核的CNN模型（Krahe et al., 2020）。与点云相比，体素可以转换为网格形状以便更好地可视化，但它们可能分辨率较差（Xingang Li et al., 2023）。当物体的拓扑结构重要时，由于网格具有高视觉质量，网格更受青睐。它们还可以被编辑，并在计算机图形学中被广泛接受。图结构可视化物体内部的几何关系，因此也通过比较不同的图来用于设计检索，如 Bickel et al.（2023）所做。

总之，选择合适的表示方法具有挑战性，取决于所选的网络、可用于训练的数据集，以及所需的输出质量和可适应性。许多论文没有提及其框架所使用的具体CAD软件。在其余11篇论文中，经常提及的CAD软件是常用的如 SolidWorks（2次）、AutoCAD（2次）、Catia（2次）和 Creo（2次）。其他CAD软件包括 NX（1次），以及基于云的软件 Onshape（1次）和 Salome（1次）也被提及，作为数据集创建的平台。

6. 结论与展望

本文对3D形状生成建模（重点关注3D CAD模型）中的一系列论文进行了综述，并从多个特征维度进行了评估。从最初的47篇文章中，选取了27篇用于讨论部分的最终表格分析。排除了提供该领域其他研究概述的论文，以及仅关注2D创意生成而未将框架扩展到3D形状的论文，从而能够对多种生成式建模框架在表示方法、输入、输出和设计方法等特征上进行比较。对于未来的研究，值得针对“设计修改”这一类别进行类似的文献检索。

从表2可以看出，大多数被分析的论文聚焦于设计生成，其次是设计检索和设计重建。探索新的设计概念和创建3D形状似乎是当前CAD产品开发技术现状的焦点。该领域的大多数研究利用GAN（与自编码器结合使用）和潜在向量的插值来创建设计新方案。在设计重建方面，显然编码器-解码器结构最受青睐，但也开发了使用模型树的框架（Camba et al., 2022; Plumed et al., 2022）。设计检索模型大多采用CNN架构，通过比较图或向量来评估它们的相似性。

这些框架经常遇到的一个局限性是合适数据集的质量和稀疏性。AI应用的成功很大程度上依赖于训练质量、全面且正确数据的提供，以及数据集的大小，因为大多数AI模型非常“饥饿”，需要数百万个训练样本，除非该模型不依赖数据集（例如 Wu and Zheng (2022)），但这种情况相对罕见。因此，数据必须符合开发目标（Kreis et al., 2020）。这方面的挑战在于，训练数据集通常必须属于特定的对象类别，例如椅子、汽车或机械零件。收集同一类别的大规模数据集并不容易，因为3D形状、CAD模型或扫描需要人工操作，既耗时又昂贵。取决于所使用的数据集，学习到的信息将局限于该数据集的范围，可能无法应用于其他对象类别或应用领域（Wu & Zheng, 2022）。因此，多样性对于避免结果偏差至关重要。尽管数据集覆盖了越来越多的设计领域，但像图结构这样的数据表示仍然代表性不足，而且即使存在这些数据集，它们也不一定公开可用或免费使用（Regenwetter et al., 2022）。总之，该领域的研究才刚刚开始加速。为了取得进展，处理或生成更多的训练数据是绝对必要的。