Text-to-CAD 技术全景:2025年最新最强项目深度解析

前言

计算机辅助设计(CAD)长期以来是工程师和设计师的专属领域,掌握 SolidWorks、Fusion 360 或 FreeCAD 需要数年的学习积累。而随着大语言模型(LLM)能力的爆发式增长,"用自然语言描述,AI 自动生成三维模型"这一愿景正在快速成为现实。

2024 年底至 2025 年,Text-to-CAD 领域迎来了密集的技术突破。本文系统梳理当前最具代表性的项目,从技术路线、核心方法到实际效果,帮助读者建立完整认知。


一、技术背景与核心挑战

1.1 什么是 Text-to-CAD

Text-to-CAD 是指通过自然语言描述,自动生成可编辑的参数化三维 CAD 模型的技术。与 Text-to-3D(生成网格或点云)不同,Text-to-CAD 的目标是生成工程上可用的参数化模型,支持后续编辑、约束修改和制造导出。

1.2 核心挑战

几何有效性:生成的模型必须是封闭的、无自交的合法几何体,否则无法用于仿真或制造。

参数化表示:工程 CAD 模型本质上是一系列有序的建模操作(草图、拉伸、倒角等),而非静态网格,如何用 LLM 生成这种序列是核心难题。

训练数据稀缺:高质量的"文本-CAD 模型"配对数据极为稀少,远不如图文数据丰富。

评估困难:CAD 模型质量难以用单一指标衡量,需要同时考虑几何精度、有效性和可编辑性。

1.3 主流技术路线

目前 Text-to-CAD 主要有三条技术路线:

路线一:生成 CAD 命令序列
将 CAD 建模过程抽象为离散操作序列(如 DeepCAD、Text2CAD),用 Transformer 生成操作序列后重建模型。优点是结构清晰,缺点是表达能力受限,难以处理复杂几何。

路线二:生成参数化代码
将 CAD 建模转化为 Python 代码生成问题,使用 CadQuery 等 Python CAD 库作为中间表示(如 CAD-Coder、ToolCAD、FutureCAD)。优点是充分利用 LLM 的代码生成能力,输出可直接执行和编辑。

路线三:生成几何表示
直接生成 NURBS 曲面参数或 B-Rep 结构(如 NURBGen),输出工业标准格式。优点是几何保真度高,缺点是训练难度大。


二、2025 年最强项目详解

2.1 CAD-Coder:Chain-of-Thought + 几何奖励强化学习

论文:Text-to-CAD Generation with Chain-of-Thought and Geometric Reward
发表:NeurIPS 2025
论文链接:https://arxiv.org/abs/2505.19713

核心思路

CAD-Coder 将 Text-to-CAD 重新定义为 CadQuery 脚本生成问题。CadQuery 是基于 Python 的参数化 CAD 库,生成的代码可直接执行并导出为 STEP、STL 等工业格式。

这一选择的关键优势在于:LLM 本身具备强大的 Python 代码生成能力,将 CAD 问题转化为代码问题,可以直接复用这一能力;同时 Python 代码天然可执行,执行结果可作为几何奖励信号反馈给模型。

训练流程

第一阶段:监督微调(SFT)

构建了 110K 条经过验证的"文本-CadQuery 代码-三维模型"三元组数据集,以及 1.5K 条带有思维链(Chain-of-Thought)推理过程的高质量样本。数据集通过 DeepSeek-V3 自动合成并经几何过滤验证。

在此数据上对基础 LLM 进行监督微调,使模型掌握 CadQuery 语法和基本建模逻辑。

第二阶段:强化学习(GRPO)

采用 Group Reward Policy Optimization(GRPO)进行强化学习,奖励函数由两部分组成:

  • 几何奖励:执行生成的 CadQuery 代码,计算输出模型与目标模型之间的 Chamfer Distance,距离越小奖励越高
  • 格式奖励:检查代码语法合法性和执行成功率

这一设计使模型在保证代码可执行的同时,持续优化几何精度。

实验结果

在标准 Text-to-CAD 基准上,CAD-Coder 取得了显著领先的成绩:

  • Mean Chamfer Distance:6.54(Text2CAD 为 29.29,降低约 78%)
  • 代码无效率:仅 1.45%
  • 全面超越直接提示 GPT-4o、Claude、DeepSeek 等大模型
适用场景

适合需要可编辑参数化模型的工程场景,生成的 CadQuery 代码可直接修改参数,无需重新生成。


2.2 NURBGen:基于 NURBS 的高保真 CAD 生成

论文:High-Fidelity Text-to-CAD Generation through LLM-Driven NURBS Modeling
论文链接:https://arxiv.org/abs/2511.06194

核心思路

NURBGen 是首个直接从自然语言生成 NURBS(非均匀有理 B 样条)曲面的框架。NURBS 是工业 CAD 软件(SolidWorks、CATIA、Rhino)的底层几何表示,生成 NURBS 意味着输出原生 B-Rep 格式,几何精度最高。

技术方案

混合几何表示

NURBGen 将 CAD 几何分为两类处理:

  • 约 70% 的面用 NURBS 曲面参数表示(控制点、节点向量、阶数、权重)
  • 约 30% 的退化区域(圆、直线等)用解析基元表示

这种混合表示在表达能力和 token 效率之间取得平衡。

数据集构建

团队从 ABC 数据集中提取了 30 万个零件级 CAD 模型,构建了 partABC 数据集。每个模型通过 InternVL3-13B 结合几何元数据(尺寸、孔数、表面积)自动生成文本描述。

模型训练

以 Qwen3-4B 为基础模型,在"文本描述-NURBS JSON"配对数据上使用 LoRA 进行微调,训练 18 万步。

实验结果
  • 人类偏好评分:64.1%(优于 Text2CAD、DeepCAD、GPT-4o)
  • GPT-4o 偏好评分:61.6%
  • 无效率:0.018(最低)
  • Chamfer Distance 全面优于基线方法
局限性

对复杂建筑结构的处理能力有限,偶尔产生自交面,暂不支持文字雕刻等精细操作。


2.3 ToolCAD:工具调用 LLM + 强化学习

论文:Exploring Tool-Using Large Language Models in Text-to-CAD Generation with Reinforcement Learning
论文链接:https://arxiv.org/abs/2604.07960

核心思路

ToolCAD 将 LLM 定位为 CAD 引擎的智能操作代理,而非直接生成代码。模型通过调用 FreeCAD 的建模原语工具,以交互方式逐步完成建模任务,类似于人类工程师操作 CAD 软件的过程。

系统架构

Interactive CAD Gym

将 FreeCAD 的建模原语封装为可调用工具,通过 Model Context Protocol(MCP)暴露给 LLM。系统提供混合反馈:原始引擎响应 + 结构化成功/失败信号。

CAD-CoT 推理

模型在执行每一步操作前,先进行链式思维推理,规划建模步骤,再调用对应工具执行。

混合奖励系统

  • 结果奖励:最终模型与目标的几何匹配度
  • 步骤奖励:每次工具调用的执行成功率
  • 格式奖励:推理结构的规范性

课程学习

通过控制零件数量逐步增加任务复杂度,模型在当前难度达到足够熟练度后才进入下一阶段。

训练流程
  1. 在 982 条人工验证的示范轨迹上进行监督微调
  2. 使用 GRPO 在 CAD 引擎交互环境中进行在线强化学习
实验结果

使用 Qwen2.5-7B 和 Qwen3-8B 训练的开源模型,在多零件 CAD 任务上达到约 64% 的成功率,与 GPT-4o 等闭源前沿模型持平甚至超越。


2.4 FutureCAD:参数化建模与 B-Rep 的统一框架

论文:Towards High-Fidelity CAD Generation via LLM-Driven Program Generation and Text-Based B-Rep Primitive Grounding
论文链接:https://arxiv.org/abs/2603.11831

核心思路

FutureCAD 解决了现有方法的一个关键盲区:倒角、圆角等特征操作需要精确选择 B-Rep 几何基元(面、边),而现有方法无法处理这类操作。

技术方案

双模块架构

  • LLM 程序生成模块:基于 Qwen2.5-7B,生成 CadQuery 代码。当操作需要选择 B-Rep 基元时,LLM 嵌入自然语言查询而非直接引用
  • BRepGround 模块:基于 Transformer 的几何基元定位系统,在代码执行时将自然语言查询解析为实际的几何面或边

训练数据

构建了包含 14 万个真实 CAD 模型的 FutureCAD 数据集,涵盖标准零件和含倒角/圆角的高级零件。

实验结果

在含倒角/圆角的高级子集上:

  • Median Chamfer Distance:31.12(CAD-LLaMA 为 50.16)
  • 无效率:1.01%
  • BRepGround 基元定位 mAP:63.07%(CLIP 基线为 58.18%)

2.5 Zoo / Zookeeper:工程化最成熟的商业方案

项目地址:https://zoo.dev

Zoo 是目前工程化程度最高的 Text-to-CAD 产品,由 KittyCAD 团队开发。

核心特点

  • 输出原生 B-Rep 几何,STEP 格式,几何封闭,可直接用于仿真和 3D 打印
  • Zookeeper 是基于 Text-to-CAD 的对话式 CAD 代理,支持多轮交互修改
  • 有开源 UI 组件:https://github.com/KittyCAD/text-to-cad-ui
  • 在 CAD Arena 基准测试中与 Claude Opus 4.6 并列第一(20 题中 19 题有效)

适用场景

机械零件原型设计,需要直接导出 STEP 用于后续工程流程的场景。


三、横向对比

3.1 技术路线对比

项目 表示方式 输出格式 可编辑性 几何精度
CAD-Coder CadQuery Python STEP/STL
NURBGen NURBS JSON B-Rep/STEP 最高
ToolCAD FreeCAD 工具调用 FreeCAD 原生
FutureCAD CadQuery + B-Rep STEP
Zoo 专有格式 STEP/OBJ

3.2 CAD Arena 基准排名

CAD Arena(https://cadarena.dev)是目前最权威的 Text-to-CAD 开放基准,使用 20 个固定 prompt 跨 4 个难度等级评测:

排名 模型 有效输出(/20) 说明
1 Claude Opus 4.6 19 T1-T3 全满分,综合最强
1 Zoo ML-ephant 19 原生 B-Rep 输出
3 Gemini 2.5 Flash 14 速度最快,复杂模型差
4 GPT-5 12 token 限制导致复杂 prompt 截断

3.3 选型建议

学术研究 / 算法验证:CAD-Coder,开源,有完整训练流程,可复现

工程原型 / 需要 STEP 导出:Zoo,工程化最完善,直接可用

复杂曲面 / 自由曲面设计:NURBGen,NURBS 表示几何保真度最高

多步骤交互建模:ToolCAD,代理式交互更接近真实建模流程

含倒角圆角的精密零件:FutureCAD,专门解决 B-Rep 基元选择问题


四、与仿真工作流的结合

对于机器人仿真领域(如 Cosys-AirSim、CARLA、Isaac Sim),Text-to-CAD 可以显著降低自定义机器人模型的制作门槛。

推荐工作流

自然语言描述机器人外形
    ↓
CAD-Coder / Zoo 生成 STEP 文件
    ↓
Blender 导入 STEP,转换为 FBX
    ↓
Unreal Engine 导入 FBX,配置碰撞体和骨骼
    ↓
Cosys-AirSim / Isaac Sim 绑定物理参数

这一流程将原本需要数天的 CAD 建模工作压缩到数小时,对快速原型验证尤为有价值。


五、总结与展望

2025 年的 Text-to-CAD 领域呈现出几个清晰的趋势:

代码生成路线成为主流:CadQuery 作为中间表示被多个顶级工作采用,充分利用 LLM 的代码能力,同时保持几何可验证性。

强化学习成为标配:几乎所有最新工作都引入了基于几何奖励的 RL 训练,Chamfer Distance 作为奖励信号被广泛验证有效。

开源模型追平闭源:ToolCAD 等工作证明,7B 级别的开源模型经过专门训练后,在 CAD 任务上可以达到 GPT-4o 的水平。

工程可用性快速提升:从早期只能生成简单几何体,到现在可以处理倒角、圆角等工程特征,Text-to-CAD 正在快速走向实用。

预计在 2026 年,Text-to-CAD 将在机械设计、建筑原型、机器人零件定制等领域实现规模化落地应用。


参考资料

  • CAD-Coder 论文:https://arxiv.org/abs/2505.19713
  • NURBGen 论文:https://arxiv.org/abs/2511.06194
  • ToolCAD 论文:https://arxiv.org/abs/2604.07960
  • FutureCAD 论文:https://arxiv.org/abs/2603.11831
  • Zoo / Zookeeper:https://zoo.dev
  • CAD Arena 基准:https://cadarena.dev
  • KittyCAD 开源 UI:https://github.com/KittyCAD/text-to-cad-ui
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐