读懂 CAD 图纸的 AI:语义 + 实例双维度精准解析


一、背景

在数字化升级过程中,海量历史 CAD 图纸仍以非结构化形态沉积,长期处于“可阅读、不可计算”的状态。由于缺少统一语义表达和结构化沉淀,这些存量图纸难以直接进入检索、统计、建模和业务协同流程,导致图纸资产价值无法被持续释放,成为存量数据数字化的首要障碍。

与此同时,现有 CAD 识别技术多沿用传统栅格检测路线,通常先将矢量图纸图像化后再进行识别。这一路径虽然便于沿用通用视觉模型,但在工程场景中往往难以完整保留图元间语义关系,无法支撑更高层语义理解,并且在栅格化与切图过程中容易丢失局部坐标和几何细节,进一步影响后续定位、解析与结果回写精度。


二、解决办法

CAD图纸智能识别技术采用“矢量图纸原生理解”路线,重点围绕实例级对象和语义信息进行联合建模,避免将 CAD 图纸简单降维为普通图像再处理。

2.1 标注方式:由矩形标注升级为实例标注

传统矩形框标注更适合自然图像目标检测,但在 CAD 场景中,一个对象往往由多个图元组合而成,仅靠矩形框难以准确表达对象边界与构成关系。本方案采用实例标注,将同一对象实例内的图元进行关联,训练时直接学习“哪些图元属于同一实例”,输出时同步给出语义类别与实例 ID,从根本上提升复杂图纸中的对象还原能力。

2.2 训练维度:采用代码库现有多维特征并联合训练

训练输入采用代码库中的既有维度设计,由图元空间坐标 coord(3 维)与图元属性 feat(7 维)拼接后送入网络,模型配置 in_channels: 10 即对应 3+7。coord 为各图元控制点在图纸宽高归一化坐标系下的质心 x、质心 y,以及占位 z(当前实现中 z 恒为 0)。feat 的 7 维逐项为:第 0 维,由图元起止点确定的弦向相对水平轴倾角 θ,取 arctan(Δy/Δx) 的弧度标量;第 1 维,图元几何长度经 max(图幅宽, 图幅高) 归一化后的标量;第 2~5 维共 4 维,为矢量绘制命令类型字段 commands 的 one-hot 编码(四维向量对应四类命令索引);第 6 维,线宽相对本图所有图元线宽全局最大值 max(widths) 的归一化标量。另辅以图层文本 ID 与 SBERT 文本嵌入等语义分支,与上述几何—绘制属性联合训练。

2.3 识别目标:语义检测与实例解析一体化

方案不只做“检测到对象”,而是同时完成语义检测与实例解析:语义检测负责回答“是什么类别”,实例解析负责回答“属于哪个对象实例”。在识别判别过程中,当基于前述 7 维图元特征得到的候选结果相近、置信度难以拉开时,系统会引入语义相似检测作为二次判别机制,进一步区分高混淆类别并提升最终判断精度。通过这一体化设计,系统输出不再是单纯检测框,而是可直接用于结构化入库、关系查询与下游业务消费的对象级结果。

2.4 推理策略:常规推理 + CAD 半自动分组优化推理

在推理阶段,系统支持两条路径。常规推理用于标准化批处理场景,直接对图纸进行端到端预测并输出语义与实例结果;针对复杂 CAD 图纸,进一步引入半自动分组优化策略,在 CAD 侧先进行分组约束与候选组织,再执行模型推理与结果回写,以降低复杂场景误检和实例混淆,提升工程可用性与结果稳定性。


三、架构图

工程实施遵循端到端矢量处理链路:首先完成 CAD 源数据的接入与完整性校验(格式、图层与图元一致性);继而通过自研转换引擎生成统一的 SVG 语义中间表示,保留几何拓扑与图层上下文;在此基础上进行图元级解析与关系预处理,构建归一化坐标下的多维特征张量(空间坐标与七维图元描述联合);随后进入基于 Point Transformer 结构的识别核心,同步输出语义类别与实例级掩码或关联关系;最终执行结果映射与 CAD 回写,形成可版本管理的标注图纸、可检索的结构化 JSON/中间件载荷,以及面向业务系统的 REST/gRPC 等服务形态交付物。
在这里插入图片描述

3.1 分层职责说明

体系上可概括为五层协同:输入与标准化层负责 Schema 对齐与质量门禁,抑制多源图纸带来的分布漂移;矢量解析与特征构造层输出点云式图元集合及 coord+feat 联合表征;语义建模层融合几何编码器、查询解码器与文本嵌入(SBERT)分支,完成密集预测与匹配;识别输出层统一封装语义标签、实例 ID 与置信度;结果服务与运维层提供回写、可视化与 API 网关能力,并通过难例挖掘与持续训练形成闭环。该分层有利于独立扩容与 SLA 拆分,便于与企业现有 PLM、BIM 中间件或数据中台对接。

---

四、技术特点

本方案坚持矢量原生(Vector-native)处理范式,直接在 CAD/SVG 图元空间进行特征抽取与关系建模,规避栅格化引入的量化误差与拓扑断裂风险。识别任务采用语义检测与实例解析联合建模(panoptic-style 的对象级输出),在符号密集、尺度跨度大、线型相近等工况下仍能保持可复现的稳定性。在内部多场景验证集上,典型建筑平面子集端到端语义分类 mAP@0.5 可稳定在约 94% 量级;对易混淆符号族,相较纯 YOLO 类栅格基线,Top-1 准确率平均可高出约 18~24 个百分点(同一批评测协议与硬件条件下)。输出侧强调可消费性:结果可直接映射回世界坐标系与图层体系,支持下游 BIM 属性挂接、算量规则引擎与知识图谱入库。

4.1 相比通用视觉方案的工程优势

相较“先栅格化、再目标检测、再矢量化回写”的多段式链路,本方案没有不可逆的信息降维,保留了局部坐标精度与邻接关系。推理与训练共用统一特征管线,降低模块间阻抗失配与联调成本。基于统一语义 Schema 交付,使的不同工程场景图纸也能有效识别。

4.2 技术成熟度可评估维度

建议从识别准确性(复杂图纸、长尾类别与高混淆族群的稳定性)、解析完整性(语义标签与实例 ID 双输出的字段完备率与回写成功率)、工程适配性(接口标准化程度、批处理吞吐、运维监控与模型版本治理)三个维度综合评估,并与业务侧定义的验收阈值(如关键构件召回率下限、误报率上限)对齐。


五、当前成果

1. 已有成果

已形成覆盖“数据生产—模型训练—批量推理—结果回写”的完整工具链:自研 CAD 矢量标注工作台支持实例级标注规范与质检流程;训练侧提供基于 PyTorch 的分布式训练与超参/权重管理;推理侧提供批处理调度、FP16 可选加速与结构化结果序列化。截至当前里程碑,标注—训练闭环已累计覆盖大多语义类别、逾 8 万张等效图幅的训练与回归样本(含难例与跨项目抽检)。

2. 效果图

案例 A:关键图元识别效果

[
]``[
]

                            原图                                                                            识别结果                                   

[
]

在门窗、楼梯、卫浴等典型构件上,系统可稳定识别所有关键图元类别,结构化字段可直接入库。

案例 B:相似符号区分效果

[
]``[
]

                                  原图                                                                      识别结果       

[
]

在相似符号共存场景下,系统可通过图层信息区—几何视觉联合打分后别图元类别,保持高一致性识别表现。

案例 C:复杂场景实例解析效果

[
]``[
]

                                  原图                                                                      识别结果       

[
]

在复杂图纸中,系统可完成语义识别与实例解析联合输出,可支撑对象级算量与审图规则命中。

3. 效果解读

对外交付不仅关注单张示范图,更强调批处理一致性、置信度校准与可观测性。当前能力已从“可演示”推进到“可签 SLA、可运维迭代”的工程状态,适合作为图纸数据中台或智能审图子系统的核心识别组件。


六、与其他现有识别技术的对比

维度 现有栅格检测路线(YOLO 类) CAD图纸智能识别技术
数据处理方式 先栅格化/切图再检测 面向矢量图元原生处理
处理对象 像素矩阵 几何图元(线段、圆弧、图块),图层语义
语义信息保留 转换中损失信息,如断裂、变形、异物、缺失等 完整保留几何坐标、图层、拓扑关系
数据层面 信息损失不可避免 CAD图纸本质是矢量数据,转为位图后必然丢失精度 保留全部矢量,图层信息
输出能力 以检测框为主 语义识别 + 实例解析
复杂图纸适配 需较多后处理拼接 统一链路支撑复杂场景
业务系统对接 需额外结构化转换 可直接输出结构化结果
长期维护 模块拼接多,治理成本高 链路一体化,易治理与迭代

总体来看,YOLO 类方案在 CAD/SVG 图纸识别场景中,会丢失大量信息。而CAD图纸智能识别技术在矢量适配、语义完整性与业务落地效率方面具有明显的代际优势。

6.1 对比结论

企业战略是将图纸纳入主数据治理、与审图、算量、资产台账或数字孪生长期绑定,矢量原生、语义—实例一体化路线在总拥有成本、结果可信度与可持续迭代空间上具绝对优势。尤其在 CAD/SVG 为唯一可信源的场景下,该路线更利于形成可审计、可版本化的结构化资产沉淀。


七、应用方向

本技术可在多个业务场景中落地,支撑从存量图纸治理到智能应用的全链条闭环:

存量图纸治理:面向企业海量历史图纸,实现批量结构化入库与语义检索。通过自动识别图纸中的构件、符号、文字及空间关系,将非结构化的CAD文件转化为可查询、可统计的结构化资产,提升图纸复用效率。

智能审图与合规质检:将规范条文转化为可执行的识别规则,实现对象级的自动化合规校验。系统可精准命中图中构件的位置、数量、属性及相互关系的违规项,辅助设计审核人员快速定位问题,从“人工逐图比对”升级为“规则驱动的智能筛查”。

设施设备台账与运维管理:打通设计图纸与运维系统的数据壁垒。通过识别图纸中的设备设施,自动提取其类型、位置、编号等信息,并与现有台账关联比对,实现“图模一致性”校验及缺失属性的批量回填,为数字交付与智慧运维提供可靠的基线数据。

管理驾驶舱与统计分析:基于识别结果构建多维度指标体系,为管理者提供直观的决策支持。可按构件类别、空间分布、图纸版本、项目阶段等维度,动态展示资产分布、缺陷密度、合规通过率等关键指标,实现数据驱动的精细化管理。

中台能力输出:将图纸智能识别能力封装为标准化服务,作为企业级技术中台的一部分,向上层BIM、GIS、数字孪生平台开放API接口。各业务系统可灵活调用识别结果,实现“一次识别、多处复用”,避免重复建设,加速企业数字化转型

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐