【3D场景生成】UnrealLLM: Towards Highly Controllable and Interactable 3D Scene Generation

weixin_46687145

450人浏览 · 2026-05-24 14:11:19

weixin_46687145 · 2026-05-24 14:11:19 发布

在这里插入图片描述

UnrealLLM：基于大语言模型驱动的程序化内容生成实现高可控、可交互的3D场景生成

原文链接：https://aclanthology.org/2025.findings-acl.994.pdf
发表：ACL findings-2025

摘要

高质量3D场景的创作对于电子游戏、仿真模拟等应用至关重要，然而在保留程序化内容生成（PCG）优势的前提下实现该过程的自动化仍面临诸多挑战。本文提出UnrealLLM，这是一种全新的多智能体框架，可将自然语言描述与专业程序化内容生成系统（虚幻引擎5）相连接，实现场景生成的自动化。UnrealLLM构建了完备的知识库，用于将文本转换为可执行的程序化内容生成蓝图；同时搭建了多样化的资源库，保障高质量场景生成。此外，该框架还提出了基于文本的蓝图系统，并搭配基于样条的控制机制实现几何布局调控，借助虚幻引擎5的先进能力实现自然语言交互，提升3D环境的交互性。大量实验结果表明，UnrealLLM在技术指标与美学质量上均取得具有竞争力的表现，在生成规模与交互性方面具备独特优势。本研究为自动化3D内容创作提供了有价值的思路，惠及新手用户与专业设计人员。

1 引言

高质量3D场景的创作在电子游戏、仿真模拟、视觉特效制作等各类应用中扮演着关键角色。这类应用不仅要求场景具备视觉吸引力，还需要3D环境功能完整，能够支撑交互、仿真与实际部署需求。尽管近期人工智能驱动的内容生成技术取得了令人瞩目的进展，但创建复杂、可用于生产的3D场景仍面临诸多挑战。具体而言，当前3D场景生成方法大致可分为显式方法与隐式方法两类。显式3D生成方法直接从描述信息生成3D网格模型。这类方法在生成单个3D物体上展现出潜力，但在处理包含多个资源的场景时，在生成质量与可扩展性上存在显著难题。另一方面，隐式场景生成方法尽管近期在GameNGen、GameGenX等方法中展现出交互性方面的进展，却主要聚焦于2D视觉渲染。这类方法虽能生成视觉效果出色的结果，但因缺乏显式的3D表示，导致物体无法拆解，进而降低了灵活性与适用性。

针对现有方法的上述局限，程序化内容生成（PCG）凭借基于规则的空间组装机制与现有高质量资源，提供了极具潜力的解决方案。这类系统通过精巧的程序化规则，能够高效创建复杂、逼真的环境，涵盖具备真实生态模式的自然景观，以及空间布局精准的结构化城市场景。然而，程序化内容生成需要使用者深入掌握生成规则与专业软件知识，对新手而言门槛较高，且使用过程耗时费力。

为解决上述难题，3D-GPT、SceneX等近期研究提出了指令驱动的3D场景生成思路，将大语言模型（LLM）智能体与Blender中的程序化生成工具相结合。现有方法虽能与人类设计人员协作搭建程序化生成框架，但仍存在一些局限。首先，这类方法依赖Infinigen平台，其支持的场景类型有限，3D资源的风格也较为单一。此外，这类方法主要通过大语言模型调度预定义的Infinigen应用程序编程接口，从本质上限制了创作的可能性。

与之不同，虚幻引擎5（UE5）为程序化内容生成（PCG）提供了强大且灵活的生态系统，使用者可调用商城中丰富的专业资源，并借助Nanite、Lumen、Chaos等先进技术实现高品质视觉效果。不仅如此，虚幻引擎5原生的程序化内容生成系统支持直接对节点级场景构图进行操作，为更动态、更具创新性的内容创作创造了条件。但如何让大语言模型与虚幻引擎5中的节点级场景生成对接，也带来了新的挑战。其一，构建面向虚幻引擎5的场景生成蓝图需要大量专业知识，亟需建立自然语言与节点级程序化内容生成工作流之间的语义转换机制。其二，虚幻引擎5中资源的细粒度与多样性，为跨艺术风格的上下文感知检索带来了效率难题。最后，保障生成过程的稳定性与质量，需要对专业知识进行系统化整合。
在这里插入图片描述

图1：具备高可控性与交互性的UnrealLLM场景展示

基于上述分析，本文设计了面向虚幻引擎5原生的生成框架UnrealLLM，重新定义了大语言模型（LLM）与程序化内容生成（PCG）流程的交互方式。这一全新的多智能体框架打通了自然语言交互与基于程序化内容生成的场景生成之间的壁垒。如图1所示，本框架不仅支持文本到场景的生成，还能打造完全可交互的环境，依托虚幻引擎5的实时物理与游戏玩法系统，支持角色行走、游泳、物体破坏等复杂游戏机制。本研究的核心创新在于提出了基于文本的蓝图表示方式，让人工智能智能体能够系统化处理与操控程序化内容生成图，以机器可处理、人类可理解的格式捕获场景的结构构图与参数配置。为提升资源利用率，本文构建了具备多模态表示的丰富3D资源库以实现上下文感知检索，并搭建了涵盖节点操作、参数配置与成熟生成策略的完备程序化内容生成知识库，保障生成结果稳定、高质量。此外，本文引入基于样条的控制增强方案，对生成过程实现精准的空间控制，让用户在保持程序化生成效率的同时达成特定的美学目标。本文的主要贡献可总结如下：

可靠性：提出专用多智能体框架，各智能体协同完成节点级程序化内容生成任务；搭配完备的程序化内容生成专业知识库，保障生成的可靠性与质量。
多样性：搭建多模态资源库与上下文感知检索系统，让框架可生成几乎所有类型的3D场景，同时保持艺术风格统一、视觉质量上乘。
交互性：提出全新的基于文本的蓝图表示方式，实现自然语言与专业程序化内容生成操作的无缝对接；同时借助虚幻引擎5的物理与游戏玩法系统，让生成场景具备丰富的游戏交互性。

2 相关工作

程序化3D内容生成

程序化内容生成（PCG）已成为自动化3D内容创作的强大范式，应用覆盖自然环境与城市场景两大领域。早期研究为自然场景生成奠定了坚实基础，同期研究则开发了成熟的城市规划框架。这类方法通常依托精心设计的数学规则与参数引导生成流程。城市程序化建模开创性地通过边界感知程序化规则生成城市，基于L-系统算法，结合环境约束与程序化生成模式，有效处理街道布局与建筑排布。Infinigen等近期进展进一步突破了程序化生成的边界，依托精巧的算法技术，可创建多样、逼真的3D自然物体与场景。

但这类系统普遍需要大量专业技术知识才能高效使用，限制了非专业用户的可及性。本研究针对这一问题，为程序化内容生成系统引入自然语言交互界面，同时保留其强大的生成能力。

文本到3D场景生成

文本到图像合成技术的突破，极大推动了文本引导的3D内容创作发展。早期研究探索了视觉-语言模型用于生成引导，随后分数蒸馏采样技术的出现，让2D生成模型可适配于3D内容合成。该领域在表示格式上开展了多元探索，从神经隐式表示到优化后的网格方法均有涉及。研究人员通过多视角合成方法、先进蒸馏技术等多种策略解决生成一致性问题。同期研究聚焦单视图重建与形状合成、特定领域生成等专用应用场景。但现有方法在创建生产级3D场景时仍面临挑战，尤其在结构组织与资源质量方面。本研究将自然语言理解与成熟的程序化内容生成系统、高保真资源库相结合，解决了这些局限。

3 方法

3.1 基于规则的程序化生成

程序化内容生成（PCG）系统凭借其精巧的基于规则的空间组装机制，为3D内容创作提供了强大的技术路径。如图2所示，这类系统的核心运行流程包含连续步骤：目标空间采样、3D位姿变换、构图、过滤与资源选择。其核心工作流是这些操作之间的迭代交互，共同定义场景生成的空间规则。为让人工智能智能体高效理解与操控这些复杂的程序化内容生成工作流，需要以机器可处理的格式对其进行系统化表示。
在这里插入图片描述

图2：程序化内容生成（PCG）简易工作流展示。本图通过简易步骤展示了如何生成一盘逼真的饺子

3.2 基于文本的程序化内容生成蓝图表示

程序化内容生成系统的高效自动化，需要对程序化生成逻辑进行标准化、高效的表示。传统基于节点的程序化内容生成系统依托可视化编程界面，而本文提出基于文本的蓝图表示方式，支持人工智能智能体对其进行系统化处理与操控。该表示方式以机器可处理、人类可理解的格式，捕获程序化内容生成图的结构构图与参数配置，更关键的是，可由大语言模型（LLM）完成生成与操控。

本文提出的蓝图表示保持与程序化内容生成图一致的层级结构。核心创新是采用结构化的、基于JSON的领域特定语言（DSL）。该领域特定语言精准定义虚幻引擎蓝图的核心元素（如节点、连接、参数），并支持与虚幻引擎原生蓝图格式双向转换，搭建起自然语言到程序化内容生成技术配置的桥梁。该设计便于人工智能智能体高效处理与自动化生成蓝图，支持基于模板的方案，让大语言模型可高效操控程序化内容生成逻辑。
在这里插入图片描述

图3：多智能体程序化内容生成自动化框架总览。系统由五大专用智能体协同工作：场景分析器将自然语言输入处理为结构化规格说明，资源管理器通过跨模态匹配完成3D内容检索，两大专家智能体（节点专家、模式专家）通过检索增强生成提供技术指导，蓝图生成器整合所有输入构建最终程序化内容生成图，再转换为可执行的虚幻引擎蓝图。

3.3 面向程序化内容生成自动化的多智能体框架

基于本文提出的基于文本的蓝图表示，本文开发了多智能体框架，实现程序化内容生成图构建流程的自动化。该多智能体框架将复杂的程序化内容生成专业知识拆解为专用领域，通过协同问题求解实现可靠的场景生成。本框架协同调度五大智能体，将自然语言描述转换为可执行的程序化内容生成图，分别为场景分析器、资源管理器、节点专家、模式专家与蓝图生成器。

场景分析器

作为系统入口，场景分析器将用户输入处理为技术精准的规格说明，通过生成标准化场景描述、结构化元素列表与策略化生成指导，解决用户表达风格各异的问题。该标准化输出确保场景需求被一致解读，同时保留创作意图。

资源管理器

资源管理器依托本文构建的完备3D资源库运行，资源库素材源自MegaScan免费资源与Objaverse数据集。针对资源库中的每个资源，本文首先通过自动化标注与编码建立丰富的多模态表示。标注过程依托多模态大语言模型生成详细描述：
$\quad (1)$
其中 $V(A)={v_{1}, ..., v_{n}}$ 表示从不同角度渲染的视图集合， $M (A)$ 包含技术规格、材质属性、使用场景等基础元数据。这些多模态特征被编码至视觉嵌入空间 $E_{v}$ 与文本嵌入空间 $E_{t}$ ：
$[E_{v}(A), E_{t}(A)]=[CLIP(V(A)), CLIP(T(A))] \quad (2)$

资源管理器遵循精巧的工作流实现最优资源选择。首先，通过提示工程，该智能体全面掌握资源库的覆盖范围与类别。接收场景分析器的输入（包含场景描述与元素需求）后，依托该知识构建高效的自然语言查询。针对给定查询 $q$ ，检索分数计算方式为：
$q)=\lambda_{t} cos \left(E_{q}, E_{t}(A)\right)+\lambda_{v} cos \left(E_{q}, E_{v}(A)\right) \quad(3)$
其中 $\lambda_{t}$ 与 $\lambda_{v}$ 为平衡文本与视觉模态贡献的权重。针对每个查询，向量数据库返回相似度最高的前k个资源。随后，智能体结合原始场景描述，从语义适配性与技术约束两方面评估候选资源，筛选出最适配的结果。最终，将选中的资源整理为结构化文本，供场景生成流程中的其他智能体使用。

节点专家与模式专家

本框架集成两大专用专家智能体，均依托完备的程序化内容生成知识库。这些知识库由经验丰富的程序化内容生成专家与虚幻引擎专家精心整理，包含成熟的生成策略与技术规格。专家智能体采用检索增强生成（RAG）技术，搭建自然语言场景描述与领域特定程序化内容生成知识之间的桥梁，保障生成指导的可靠性。

输入自然语言 → 双专家智能体通过 RAG 从人工 PCG 知识库检索真实专业知识 → 把知识喂给大模型 → 大模型生成合法、可执行、符合 UE5 规则的 PCG 蓝图 → 保证场景生成稳定可靠。

节点专家智能体维护程序化内容生成节点及其应用的完备知识库，记录节点行为、参数空间与连接模式。该知识通过专用技术嵌入编码至稠密向量空间：
$K_{node}(n)=Encode(D(n), P(n), C(n)) \quad (4)$

针对每个程序化内容生成节点 $n$ ，其知识表示 $K_{node}(n)$ 通过编码三大核心组件计算得到： $D (n)$ 表示节点的技术文档与使用指南， $P (n)$ 包含有效参数范围与推荐配置， $C (n)$ 描述节点与其他节点的可能连接模式。处理场景需求时，该智能体通过语义检索识别相关节点配置：
$R(q)=TopK\left(Sim\left(E(q), K_{node}\right), k\right) \quad(5)$

针对源自场景需求的给定查询 $q$ ，该公式通过计算查询嵌入 $E (q)$ 与编码后节点知识 $K_{node}$ 的相似度分数，检索相似度最高的前k个节点配置。

模式专家智能体同步运行，管理成熟的程序化内容生成策略与架构模板库，聚焦在各类场景中验证有效的高阶生成模式。通过精心整理成功的程序化内容生成实现方案，本文构建了完备的模式库，支撑多样化的生成能力。如图4所示，本系统支持带随机分布的空间采样，适用于水面荷花、空中飞鸟等自然散布元素。图5展示了基于矩阵的生成模式，可实现规整的太空舰队、网格状城镇布局等精准结构排布。针对复杂环境细节刻画，图6展示了基于表面的采样模式，可实现地形花卉、墙面藤蔓等精巧组合效果。模式专家依托这些成熟模式，通过结构化检索与组合流程工作，针对给定查询 $q$ 的模式选择分数 $S_{pattern}(q)$ 计算方式为：
$S_{pattern}(q)=Retrieve\left(q, L_{pattern}\right) \cdot Compose \left(G_{scene}\right) \quad(6)$
其中 $L_{pattern}$ 为专家整理的模式库， $G_{scene}$ 表示场景分析器输出的场景生成目标。Retrieve函数从库中识别相关模式，Compose函数结合特定场景需求组合这些模式。基于该分数，模式专家筛选最适配的生成模式，并确定组合方式以实现最优场景构图。

两大专家智能体的协同交互，同时保障技术正确性与生成意图的保留。节点专家负责验证技术规格，模式专家引导整体生成策略。

在这里插入图片描述

图4：基于空间采样与随机分布的多智能体系统生成模式展示

在这里插入图片描述

图5：基于矩阵与正则化空间网格的多智能体系统生成模式展示

在这里插入图片描述

图6：基于网格表面采样的多智能体系统生成模式展示

蓝图生成器

整合节点专家与模式专家的专业输出后，蓝图生成器结合其建议构建最终的程序化内容生成图。蓝图生成器依托GPT-4o、Claude 3.5等先进大语言模型（LLM）——这类模型在处理复杂信息流、生成结构化输出方面具备增强能力——高效处理前置智能体的多类信息：资源管理器输出的结构化资源目录、节点专家的技术规格、模式专家的生成策略。构建过程中，蓝图生成器与专家智能体保持反馈循环，实现迭代优化。最终输出以本文提出的基于文本的表示格式编码，并通过定制插件转换为可执行的虚幻引擎程序化内容生成蓝图。

3.4 基于样条的控制增强

本多智能体框架通过程序化内容生成规则实现多样化场景生成，但要实现精准的空间控制，还需要额外的引导机制。本文通过在系统中融入基于样条的控制方案解决该问题，依托草图智能体（SketchAgent）方法，从自然语言描述自动生成控制样条。如图7所示，该方案通过各类样条图元，实现对复杂场景布局的直观几何控制：资源摆放的分布路径、地形特征塑造、密度变化控制、环境区域边界。例如，本文的中世纪城镇场景展示了该方案的效果
在这里插入图片描述

图7：以中世纪城镇为例的基于样条的场景生成控制展示。系统采用边界样条定义森林与城镇区域，采用路径样条定义土路轨迹。这些由草图智能体生成并带语义标签的样条，为程序化内容生成蓝图生成提供几何控制。

4 实验

指标

本文采用多项指标评估系统性能。技术评估采用可执行率（ER@1）与成功率（SR@1），其中ER@1衡量提议操作在程序化内容生成系统中可执行的比例，SR@1评估这些操作的正确性。为量化美学质量，本文采用GPT美学评分（GAS），在SceneX的美学评估方法基础上进行拓展。SceneX依赖人工评估美学分数，本文则使用大语言模型实现不同方法的一致性评估。此外，采用CLIP相似度评估生成场景与输入文本描述的语义对齐程度。遵循现有研究惯例，CLIP相似度通过计算场景渲染视图与输入文本描述的CLIP嵌入之间的余弦相似度得到，用于定量衡量生成内容与设计意图的匹配度。

4.1 实验设置

数据集

为评估本系统，本文整理了包含40余种多样化场景生成任务的测试集，覆盖自然景观（森林、山脉、海岸线）、城镇（建筑、村庄）与奇幻场景（魔法森林、外星地貌）。每个任务均用于测试系统生成能力的不同维度。

4.2 结果与分析

消融实验

本文开展消融实验，评估提示模板不同组件的作用。如表1所示，每个组件均对系统性能有正向贡献。组件包括：指令（基础任务描述与需求）、节点知识库（程序化内容生成节点与操作的技术知识）、模式知识库（成熟的生成策略与模式）、示例（具备相似生成逻辑的参考场景）。仅使用指令效果一般（ER@1：19.5%，SR@1：12.2%），加入节点知识库后性能显著提升（ER@1：39.0%，SR@1：36.6%）。搭载所有组件的完整系统取得最优结果（ER@1：75.6%，SR@1：73.2%）。
在这里插入图片描述

表1：3D场景生成不同提示组件的消融实验结果

模型对比

本文评估不同语言模型作为蓝图生成器的效果，如表2所示。GPT-3.5表现中等（ER@1：58.6%，SR@1：41.0%），GPT-4o效果更优（ER@1：68.2%，SR@1：63.4%）。近期模型展现出更强能力，其中o1-mini取得整体最优性能（ER@1：83.0%，SR@1：78.0%），其次为Claude 3.5-Sonnet（ER@1：80.1%，SR@1：70.8%）与o1（ER@1：75.6%，SR@1：73.2%）。
在这里插入图片描述

表2：不同模型作为蓝图生成器的可执行率与成功率对比

生成多样性

如图8所示，相较于现有方法，本文方法在场景生成灵活性上表现更优。SceneX因依赖Infinigen的固定资源管线仅能生成写实风格场景，而本框架支持写实、风格化、低多边形等多种艺术风格。这种多样性提升得益于本文完备的资源库与灵活的程序化内容生成蓝图系统，可跨环境类型创建多样化场景。
在这里插入图片描述

图8：场景生成能力对比。从左至右：SceneX的写实结果与本文方法的写实、风格化、低多边形风格结果。每行对应不同场景类型（森林、沙漠、城镇）。本文方法支持多种艺术风格，展现出更强的多样性。

特征对比

本文进一步在表5中对比不同方法的能力。多数方法支持文本引导，而本文方法独有的优势是结合参数控制、基于样条的控制与游戏交互能力。这套全面的功能搭配无限制的生成规模，实现更灵活、实用的场景创作。值得注意的是，本文是首个支持生成场景直接游戏交互的方法，可实现角色移动、物体交互等动态游戏机制。
在这里插入图片描述

表5：不同方法的特征对比（✓：支持，×：不支持）

美学质量与对比分析

本文采用美学与技术指标，将本方法与当前最优方法对比，结果如表3、表4所示。本方法的GPT美学评分（GAS）为7.71，优于SceneX（7.31）、3D-GPT（6.76）、Infinigen（6.61）等现有方法。Magic3D、DreamFusion等方法在不同ViT模型上的CLIP相似度分数更高，核心原因是这类方法在训练或优化过程中融入了文本到图像的对齐操作。与之不同，本文方法聚焦生成功能完整、艺术风格多样、具备交互能力的3D场景，同时保持与输入描述的竞争性语义对齐度。这套全面的能力搭配优异的美学分数，验证了本系统在创建视觉美观且功能完整的3D场景方面的有效性。
在这里插入图片描述

表3：GPT美学评分对比分析

在这里插入图片描述

表4：不同CLIP模型预测的文本-图像相似度对比分析

5 结论

本文提出一种全新的多智能体框架，打通虚幻引擎5中自然语言交互与专业程序化内容生成系统的壁垒。本方法通过基于文本的蓝图表示与完备知识库，将大语言模型与程序化生成技术相结合，实现场景生成的直观控制。实验结果表明，本系统在技术可靠性、美学质量与游戏交互性方面均表现出色。本文认为，本研究是推动专业程序化内容生成系统大众化的重要一步，惠及自动化3D内容创作领域的新手用户与专业设计人员。

局限性

尽管本框架展现出可观效果，但仍存在一些值得关注的局限。首先，系统性能高度依赖程序化内容生成知识库的质量与覆盖范围。对于知识库中覆盖不足的新颖或非常规场景类型，生成质量可能下降。其次，尽管多模态资源库支持多样化场景生成，系统仍受现有资源的限制。创建具备高度特定或独特艺术需求的场景，可能受资源集合的约束。此外，尽管框架支持基础游戏交互，实现复杂、多步骤交互模式或专用游戏机制，仍需对生成场景进行手动调整。最后，多智能体架构与完备的知识检索流程计算量较大，在资源受限环境中可能影响实时性能。

伦理声明

本研究旨在推动专业3D内容创作的大众化，同时保持高质量标准。本文意识到系统的计算密集性及其潜在环境影响，未来研究将聚焦资源使用优化与能耗降低。尽管本系统提升了程序化内容生成的易用性，本文会透明披露其能力与局限，避免滥用或不切实际的预期。内容使用方面，本文资源库依托MegaScan免费资源、Objaverse数据集与虚幻引擎商城商业授权资源组合构建，所有资源均遵循各自授权协议与署名要求使用。此外，本文积极确保知识库与资源库覆盖多元艺术风格与文化视角，避免场景生成中的潜在偏见。通过以上考量，本文致力于打造不仅提升技术能力，还恪守人工智能驱动内容创作伦理原则的系统。

思考

数据流：
用户输入（Stage1） → 场景结构化分析（Stage2） → 资产检索（Stage3） → PCG节点+模式增强（Stage4） → 文本蓝图生成→插件转换→引擎执行→交互式3D场景（Stage5）

核心逻辑总结：
整个框架的本质，是把 “模糊的自然语言描述”，通过多阶段拆解、多模态检索、领域知识增强，转换成 “UE5 能直接执行的 PCG 蓝图”：
Stage2 解决「用户描述太模糊，AI 理解会跑偏」的问题
Stage3 解决「找不到符合场景风格的 3D 资产」的问题
Stage4 解决「大模型不懂 PCG 规则，生成的蓝图无法运行」的问题
Stage5 解决「大模型生成的文本蓝图无法在 UE 中执行」的问题

附录

A 程序化内容生成基础

为更好地理解本系统的基础原理，本节介绍程序化内容生成（PCG）的基本原理与工作流程。程序化内容生成系统通过一系列定义明确的步骤，将简单图元转换为复杂、规整的内容。虚幻引擎中的程序化内容生成本质上以基于节点的系统实现，如图9所示。系统中的每个节点代表一项特定操作或规则，可通过微调参数控制生成流程。工作流从左至右执行，节点处理数据并传递至后续节点，支持直观创建与修改生成逻辑。该可视化编程界面让开发者可搭建复杂的生成系统，同时精准控制每一步流程。
在这里插入图片描述

图9：虚幻引擎中程序化内容生成系统的实现示例，展示了支持程序化场景生成的节点式工作流。该可视化编程界面支持直观创建与修改生成规则。

在这里插入图片描述

图10：程序化内容生成处理不同复杂度内容的能力展示：从单棵树（左）到树群（中），再到层级结构化森林（右），体现了程序化内容生成从简单元素到复杂场景构图的可扩展性。

程序化内容生成系统的核心优势在于可处理不同复杂度的内容生成。如图10所示，程序化内容生成可生成从简单单个元素到复杂层级结构场景的各类内容。该图通过从单棵树、树群到多层级结构化森林的演变过程，展示了这种可扩展性。随着目标场景复杂度提升，生成逻辑可相应扩展与优化。这种灵活性让开发者可根据目标场景的具体需求（无论简单或复杂）搭建适配的生成规则。
在这里插入图片描述

图11：程序化内容生成（PCG）简易工作流展示。通常，程序化内容生成步骤包括：目标空间采样与投影、3D位姿变换、构图、过滤以及资源选择与生成。本图展示了如何通过简易步骤生成一盘逼真的饺子。

为清晰说明程序化内容生成工作流，图11以生成一盘饺子的简易示例拆解生成流程。该分步演示展示了程序化内容生成管线的典型组件：对目标空间进行初始采样与投影以搭建基础布局、通过3D位姿变换实现自然变化、通过构图规则保证合理排布、通过过滤维持真实约束，最后进行资源选择与生成得到最终结果。每一步都基于前一步完成，体现了简单几何操作如何逐步生成真实、美观的排布效果。

通过上述示例可见，程序化内容生成系统为自动化内容创作提供了强大且灵活的框架。基于节点的可视化编程、可扩展的复杂度处理能力与规范的生成步骤相结合，可创作多样且精细的3D内容，同时精准把控生成流程。该基础原理是理解本系统如何依托程序化内容生成能力，将自然语言描述转换为可交互3D环境的关键。

B 评估流程

本研究的评估流程包含两大核心部分：GPT美学评分（GAS）评估与CLIP相似度计算。针对GPT美学评分评估，本研究采用精心设计的提示模板保证美学评估的一致性：你是一名艺术评论家，正在评估渲染图像的美学质量。请分析图像并给出1至10分的评分，其中：
1-2分（差）：构图、色彩或细节存在严重问题
3-4分（欠佳）：存在明显问题，影响观看体验
5-6分（中等）：具备基础美学质量，画面均衡但缺乏特色
7-8分（良好）：画质优异，构图精巧
9-10分（优秀）：艺术品质与感染力出众
你必须严格按照以下格式回复：
评分：[X]/10
分析：[你的详细分析，涵盖构图、色彩、技术质量与艺术感染力]

GPT美学评分评估流程用于评估场景质量的多个维度，包括构图、光照、材质质量与整体艺术感染力。如图13所示，本系统在各类场景中均取得稳定高分，在自然环境与建筑场景中表现尤为突出。评估结果表明，本系统可在处理多样化生成需求的同时，维持高标准的美学表现。
在这里插入图片描述

图13：不同场景类型的GPT美学评分示例结果，展示美学质量评估的稳定性。

针对语义对齐评估，本研究实现了完备的基于CLIP的相似度计算流程，如图14所示。本实现采用不同CLIP模型将场景渲染图与文本描述编码至共享嵌入空间。计算流程包含多个关键步骤：图像预处理以保证输入格式统一、文本提示归一化、计算最终嵌入间的余弦相似度。为处理场景的多视角效果，本研究计算多个渲染视图的相似度并对结果进行聚合。在这里插入图片描述

图12：测试场景的CLIP相似度分数，展示生成场景与输入描述的强对齐效果。

图12展示了测试场景中CLIP相似度分数的详细分析。结果显示，生成场景与对应文本描述之间保持稳定的高对齐度。该优异表现在各类场景类别中均得以维持，从简单自然环境到复杂建筑构图均是如此。值得注意的是，本系统在视觉元素特征鲜明、空间关系清晰的场景中取得更高分数，体现了其精准解读并落实自然语言中空间与风格要求的能力。

在这里插入图片描述

图14：CLIP相似度计算的实现流程，展示场景渲染图与文本描述的编码与对比过程。

C 程序化内容生成场景的文本表示

继程序化内容生成基础与评估流程的讨论后，本节进一步阐述基于文本的程序化内容生成蓝图表示，这是3.2节介绍的UnrealLLM核心机制。该表示方法是打通大语言模型（LLM）的自然语言理解能力与虚幻引擎5（UE5）复杂程序化内容生成系统的关键。图15直观展示了若干此类文本表示片段，及其在虚幻引擎5中生成的对应场景，清晰呈现其结构与输出效果。
在这里插入图片描述

图15：本文基于JSON的程序化内容生成蓝图文本（左）与在虚幻引擎5中生成的3D场景（右）示例。这些片段展示了程序化内容生成节点、参数与连接的结构。

如3.2节所述，本研究采用基于JSON的领域特定语言（DSL）以文本形式描述程序化内容生成蓝图。选择JSON格式主要基于两大核心考量。

首先，JSON的结构化特性支持精准的程序解析，保障与虚幻引擎5蓝图的可靠双向转换。本研究定制的虚幻引擎5插件可解析JSON文本中定义的节点、参数（设置）、连接等信息，并将其精准映射转换为虚幻引擎5内部的程序化内容生成蓝图结构与对应参数配置。值得强调的是，该设计支持本文本表示与虚幻引擎原生蓝图格式的双向转换，如3.2节所述。本研究通过定制解析器实现该双向转换能力，解析器可提取并保留节点的层级结构、执行流程与数据依赖关系。这为大语言模型理解与编辑现有程序化内容生成资源、或将虚幻引擎5中可视化搭建的蓝图导出为文本格式供大语言模型进一步处理提供了可能。

其次，JSON格式与当前大语言模型高度兼容。作为广泛应用的标准化数据交换格式，JSON简洁的语法与清晰的层级结构适配大语言模型的处理与生成需求。本框架中使用的GPT-4o、Claude 3.5等先进大语言模型（见3.3节）可直接输出结构化JSON内容。即便较小的模型，也可通过约束解码等技术实现高精度、合规的JSON生成。这种对大语言模型的友好性，大幅简化了UnrealLLM框架中蓝图生成器智能体的任务，使其可基于分析与规划结果，以文本形式搭建与修改程序化内容生成逻辑。该结构化中间格式对于有效约束与验证大语言模型输出、提升生成内容的准确性与可靠性同样至关重要。

通常，该JSON文本包含描述整个程序化内容生成图的顶层对象。其核心内容通常为节点数组，每个节点对象定义节点类型（如SurfaceSampler表面采样、StaticMeshSpawner静态网格生成）、图内唯一标识（NodeID），以及包含该类型节点专属参数的参数（设置）对象。例如，静态网格生成器的模型资源路径（MeshEntries）、表面采样器的点密度（PointsPerSquareMeter），如图15（左栏）所示。此外，文本还包含连接数组，定义节点间的输入输出关系，以此确定程序化内容生成图的数据流与逻辑执行顺序。

该精心设计的文本表示，让大语言模型智能体可系统化定义、修改与迭代程序化内容生成逻辑，无需直接操作虚幻引擎5复杂的可视化编程界面。这降低了大语言模型驱动专业级程序化内容生成工具的门槛，为实现更细粒度、更灵活的程序化内容生成自动化奠定了坚实基础。大语言模型生成或修改JSON格式的蓝图文本后，本研究定制插件将其转换为虚幻引擎5引擎内可执行的程序化内容生成蓝图（见3.3节），进而生成目标3D场景。

D 更多生成效果展示

为展示UnrealLLM系统的通用性与能力，本节呈现跨环境、跨风格的大量生成场景。图16展示了本系统解读多样化自然语言输入的能力，生成场景从包含精细海洋植被的水下环境，到氛围光影拉满的童话村庄。每个场景不仅具备视觉保真度，还支持完整交互，用户可探索并与生成环境互动。
在这里插入图片描述

图16：UnrealLLM将用户的自然语言输入转换为各类可交互3D场景，提升了程序化内容生成技术的易用性

图17与图18进一步展示了特色环境，凸显本系统的技术能力。这些场景包含高难度创作需求：具备复杂焦散光影的水下生态系统、宇宙空间中的大规模太空舰队编队、需要视觉美学协同的风格化森林环境、具备真实水面交互效果的航海场景。值得注意的是，所有生成环境均支持丰富的游戏交互，从基础角色移动到复杂的基于物理的反馈效果，在太空飞船编队控制、水面物理模拟中体现得尤为明显。

在这里插入图片描述