blog_teaser

WildGaussians: 3D Gaussian Splatting in the Wild

近年来,3D场景重建技术因其在虚拟现实、影视制作等领域的广泛应用备受关注。传统方法以神经辐射场(NeRF)为代表, 通过隐式建模实现高保真渲染,但其计算成本高且渲染速度慢。3D高斯泼溅(3D Gaussian Splatting, 3DGS)的提出弥补了这一缺陷, 通过显式表示3D高斯分布实现了实时渲染。然而,无论是NeRF还是3DGS,在处理非受控环境(in-the-wild)数据时均面临挑战——例如动态遮挡、 光照变化和复杂天气条件。

为此,论文《WildGaussians: 3D Gaussian Splatting in the Wild》提出了一种新方法WildGaussians。 它通过结合DINO特征和创新的外观建模模块,在保持3DGS实时渲染优势的同时,显著提升了动态遮挡和光照变化的处理能力。 实验表明,WildGaussians在Photo Tourism和NeRF On-the-go等复杂数据集上的性能超越了现有方法,且渲染速度达到每秒117帧, 为实际应用提供了高效可靠的解决方案。

原文链接:https://arxiv.org/pdf/2407.08447

项目地址:https://wild-gaussians.github.io

Background: Novel View Synthesis(新视角合成)

nerf
图1: NeRF的新视角合成过程。

新视角合成的目标是从一组已知相机位姿的输入图像中重建3D场景,并生成任意视角的逼真渲染。传统方法依赖多视图几何(如SFM), 但难以处理复杂光照和非刚性物体。

NeRF:通过隐式神经场(密度场+辐射场)建模场景,利用体渲染实现高质量合成,但计算量大,渲染速度慢。

3DGS:显式表示场景为3D高斯分布,通过光栅化实现实时渲染,但因缺乏参数共享机制,难以适应动态场景和外观变化。

两者的核心矛盾在于显式与隐式表示的权衡:3DGS高效但灵活性不足,而NeRF灵活但效率低下。 如何兼顾两者优势,成为解决非受控场景问题的关键。

Challenges: in-the-wild settings(非受控场景的挑战)

challenges
图2: 非受控场景的挑战。

在现实场景(如街拍、用户上传的互联网照片)中,数据通常包含以下挑战:

Variable Illumination(光照变化)

同一场景在不同时间(如昼夜)、天气或相机曝光下的光照差异显著。传统方法依赖固定的颜色建模,无法适应此类变化, 导致渲染结果出现曝光不一致或色彩偏差。

Transient Occlusions(动态遮挡)

行人、车辆等动态遮挡物频繁出现在输入图像中,干扰场景重建。若直接优化,模型可能将遮挡物错误融入静态场景, 破坏几何一致性。

NeRF-based Methods

为应对上述挑战,现有NeRF方法提出以下改进:

Appearance Modeling

通过每张图像的嵌入向量(per-image embedding)调节辐射场,捕捉光照和曝光变化(如NeRF-W)。但这类方法需为 每张图像单独训练嵌入,计算成本高且难以扩展。

Uncertainty Field

引入不确定性预测模块(如NeRF On-the-go),利用DINO特征识别遮挡区域,并在损失函数中降低其权重。然而, 传统不确定性损失(如MSE或DSSIM)对光照变化敏感,易错误抑制静态区域,导致细节丢失。

WildGaussians

challenges
图3: WildGaussians方法框架图。

WildGaussians在3DGS框架内融合外观建模与不确定性优化,提出了两阶段解决方案: