3D高斯溅射：面向三维场景的实时渲染技术

程序猿老甘

13669人浏览 · 2024-02-11 22:14:10

程序猿老甘 · 2024-02-11 22:14:10 发布

1. 前言

高斯溅射技术【1】一经推出，立刻引起学术界和工业界的广泛关注。相比传统的隐式神经散射场渲染技术，高斯溅射依托椭球空间，显性地表示多目图像的三维空间关系，其计算效率和综合性能均有较大的提升，且更容易理解。可以预见，未来2年针对高斯溅射的应用研究将会迎来爆炸式发展。通过本篇博文，我和大家来一起了解高斯溅射技术，希望对有需要的同学提供一点帮助。

2. 简介

高斯溅射3D Guassian Splatting是2023年Siggraph发表的一项创新性技术，其基本的思路为利用运动结构恢复SfM【2】，从一组多目图像中估计一个显性的稀疏点云。对于该点云中的每一个点，构造一个类似散射场的高斯椭球概率预测模型，通过神经网络完成学习，获得每一个椭球的对应参数，进而得到一个类似体像素的离散表示，以支持多角度的体渲染和光栅化。

高斯椭球 起初，图形学几何表达并不局限于三角面片。基于椭球的三维几何表示一度被工程化，例如1994年发售的魔城迷踪ecstatica：知乎：3D Gaussian Splatting入门

实际的现实世界是离散的，面片的位置是确定的，即“空白”区域就是没有数据，可以用标量0表示，有实物的区域或者一个实体表面，就是有数据的，可以用标量1表示。针对现实世界，数据显然是不可微的，因为从无到有是一个标量从0到1的跳变。由于不可微，导致不能直接套用基于微分的优化方法。而神经散射场技术的成功之处在于针对三维世界建立了一个可微的体渲染方式已解决该问题。简单解释，就是对三维世界进行渲染时，一个区域是否有物体，不是一个非0即1的二值判断，而是一个概率的预测。即空间的每一个位置都有一个基于概率的数值。这样，从0到1的跳变就转换成了一个连续的概率变换。优点是使渲染或三维表示变得可微，缺点是不能准确的确定一个几何结构。由于对整个空间建立体概率预测，训练效率较低，即使使用了GPU并行加速和类似八叉树的结构优化，依然不能获得实时的渲染性能。这时，高斯椭球被重新采用。

神经散射场的问题在于无法将概率预测控制在一个可控的区域。高斯椭球提供了一个有效的解决方案，该技术将概率预测压缩在一个基于稀疏点云的多个高斯分布中。即每一个概率预测的计算都是以稀疏点云中的一个点为标定，一个特定的作用范围作为概率预测的界限。这样，体渲染面对的不是全局场景，而是椭球限定的一组小区域。全局优化被拆解为一组局部优化，对应的计算效率自然会有所提升。高斯溅射技术就是基于上述思路提出，以平衡渲染效率和精度。

3. 算法流程

算法输入为一个静态场景的一组多目视图。首先通过SfM技术产生一组稀疏点云。基于该点云的每一个点建立一个3D高斯模型，伴随一组参数，包括位置，协方差矩阵(变换)，透明度还有颜色。由于每一个局部的高斯模型对应不同的参数，那么这种体渲染是各向异性的，具有比较好的灵活性。散射场的颜色对应一个球谐函数的解。在完成优化后，高斯模型的对应参数被学习获得，体渲染需要的信息被获知，即可通过光栅化实现三维渲染的可视化。

可微分的3D高斯溅射 使用一组3D高斯模型来表示几何，优点在于不需要精确估计法向量。高斯模型由一个定义在世界坐标系下的满秩3D协方差矩阵Σ，由中点𝜇定位：

上面的高斯模型经由透明度α累加合成。3D高斯是一个事实上的三维表达，同时也是一种概率散射场体渲染表示，最终通过2D光栅化呈现。协方差矩阵Σ可由缩放矩阵S和旋转矩阵R表示：

3D高斯的自适应优化 基于高斯模型，高斯溅射的核心技术为对模型内参数的优化，以获得一组显性的高斯椭球估计。由于高斯溅射需要考虑从3D到2D的映射，错误的几何估计是不可避免的。这时需要在优化过程删除错误的几何估计。作者使用了一个随机梯度下降技术，借助标准GPU加速结构，实现对高斯模型参数的高效优化。注：这里有一部分参数选择的介绍，以及当高斯覆盖区域过大而误差显著时，需要进行分割的实现细节，我并没有搞清楚，需要研究代码后再看。

基于高斯的光栅化 高斯溅射的目标是提供任意角度的2D渲染。从一组高斯模型中实现到图像的光栅化是一个需要面对的挑战。作者采用一种基于瓷砖的光栅化(tile-based rasterizer，是计算机图形学中的一种渲染技术。它将屏幕划分为小的矩形区域，称为瓷砖。每个瓷砖都独立处理，以减少冗余计算和内存访问)。首先将屏幕分成16*16个瓷砖，基于视锥体区域剔除域外高斯。利用估计的透明度α，对瓷砖进行排序，并为每一个瓷砖分配一个线程。对于一个像素，按照光栅化步骤，在视锥体中，逐个检索瓷砖，结合透明度与颜色，确定像素的具体信息。到此，整个高斯溅射的核心技术都已经做了简要的介绍。确实是一个非常巧妙且便于理解的体渲染方法。

实验结果：

可以看到，对场景种的一些细节，高斯溅射技术(第二列)能够获得更精确的结果。

参考文献：

[1] Kerbl B, Kopanas G, Leimkühler T, et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering[J]. ACM Transactions on Graphics, 2023, 42(4).

[2] Snavely N, Seitz S M, Szeliski R. Photo tourism: exploring photo collections in 3D[M]. ACM siggraph 2006 papers. 2006: 835-846.

[3] Lassner C, Zollhofer M. Pulsar: Efficient sphere-based neural rendering[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1440-1449.

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

Hunyuan OCR & Z-Image-Turbo 正式上线！两大模型在 NPU 加速平台完成部署，开启 AI 识图新时代！

AtomGit开源社区

智谱开源天团登陆 AtomGit，4 大模型覆盖多模态全场景！

AtomGit开源社区

[深度评测] Zotero vs. EndNote vs. 沁言学术：下一代科研文献管理与知识生成平台的架构对比与选型指南

然而，随着AI技术的浪潮席卷而来，我们对科研工具的期待正在发生根本性转变——我们不再满足于一个被动的管理器，而是渴望一个能够主动辅助思考、生成洞见的“智能知识工作空间”。本文将从技术架构的视角，深度对比经典代表Zotero/EndNote与新生代平台“沁言学术”，探讨它们在设计哲学、技术实现和未来潜力上的核心差异，并为不同需求的研究者提供一份实用的选型指南。它们将数据处理和智能计算的重心迁移到云端