分享
NeRF-HuGS:使用启发式引导分割的非静态场景中改进的神经辐射场
输入“/”快速插入内容
NeRF-HuGS:使用启发式引导分割的非静态场景中改进的神经辐射场
飞书用户2749
2024年11月30日修改
作者:社区同学-王逸帆
导读
:在本篇论文中,我们探讨了神经辐射场(NeRF)在新视角合成和三维场景重建方面的卓越性能。尽管NeRF的效果在处理静态场景时表现出色,但在遇到动态干扰物,如移动物体或阴影时,其性能会受到影响,导致生成的图像出现不希望的伪影。为了解决这一问题,提出了一种创新的方法——启发式引导分割(Heuristics-Guided Segmentation, HuGS)。
论文链接
:
https://arxiv.org/abs/2403.17537
预备知识:什么是NeRF
神经辐射场(Neural Radiance Fields,NeRF)是一种先进的机器学习技术,用于创建场景的隐式三维表征。与传统的基于几何的三维模型(如点云或网格)不同,NeRF 通过从多视角捕获的图像学习场景的连续体积表示,从而能够生成从任意新视角观察的 2D 图像。
NeRF 的核心是体渲染技术,它采用以下步骤来实现场景的视觉重建:
•
将场景视为由无数粒子组成的连续体,每个粒子具有特定的密度和颜色。
•
忽略外部光源和内部反射,假设外射光和内射光互相抵消,场景中的粒子只通过自身发光来贡献最终图像的像素值。
•
对于给定视角图像中的每个点,计算从相机出发并经过该点的射线上所有粒子的颜色和密度的积分,以确定该点的像素值。
如下图所示,给定三维空间中的一个粒子 𝑝 的位置 (x,y,z) 和从相机看该点的方向 d(,φ),NeRF 使用一个多层感知机(MLP)预测出该粒子的颜色 c(RGB) 和密度
。对同一条射线上的所有粒子都进行预测,获得每个粒子的颜色和密度,再使用体积渲染技术沿射线对所有粒子进行积分,即可得到图像上对应点的像素预测值。
将实际捕获的图像像素值作为真值,通过最小化预测颜色
和真实颜色
之间的误差,即可对上述过程进行自监督训练。在推理时,给定相应的视角参数,对图像上所有点都进行上述预测操作,获得每个点的像素值,就可以重建出对应视角的图片,实现隐式构建该场景的三维表征模型。
NeRF 技术的强大能力在于其能够快速从多视角图像中重建场景,并生成逼真的 2D 视图。例如,B站 UP 主影视飓风的视频【“重建”一座山只需10分钟?神奇的 NeRF 技术能怎么用】展示了 NeRF 如何在短时间内从一组图像中重建出复杂的 3D 场景。
论文的贡献与创新
NeRF 模型通过学习场景的连续体积表示来进行 3D 重建。如果场景在不同视图之间发生变化,例如物体移动或光照条件改变,模型将难以捕捉到一致的3D结构,在摄影时任何表现出运动或不一致性的内容,都可能在重建的3D模型中引入伪影,降低重建质量。因此在训练 NeRF 时,多视图图像的内容必须保持一致且静态。而在实际作业中,这样的瞬时干扰物几乎是不可避免的,例如,在户外环境中,行人和车辆可能在图像采集期间随机出现,而室内拍摄可能受到摄影师投下的阴影的影响。
为了避免静态场景中出现的瞬时干扰物,很自然的想法就是预先移除图像中瞬时干扰物,在训练 NeRF 时仅计算静态物体部分的 loss,使得神经网络在训练时免受瞬时干扰物的影响,进而消除伪影。
但手工标记这些瞬时干扰物,逐像素地提取并移除是一项极其耗时的任务,该论文的贡献就在于提出了一种创新的解决方案——启发式引导分割(Heuristics-Guided Segmentation, HuGS)。该方法通过结合手工启发式算法和先进的分割模型,可自动精确地从复杂场景中分离出静态元素,构建静态元素的分割掩膜。将该方法作为一种Pipeline应用于NeRF进行三维重建的过程中,可有效地消除伪影,提升NeRF进行三维重建的效果。
相关工作
为了减轻静态场景中出现的瞬时干扰物对NeRF建模的影响,现有解决方案大致可分为两类:
•
基于分割的方法
:通过使用预训练的语义或视频分割模型来识别瞬时干扰物与静态场景,并利用这些信息来辅助NeRF的训练。这些模型可以产生准确的结果,但存在严重限制:
◦
i) 它们需要额外的先验知识,如瞬时干扰物的语义类别或图像作为视频帧的时间关系,这在实践中很难满足,因为不可能枚举所有可能的干扰物类别,且图像可能无序。
◦
ii) 语义分割无法区分同一类别中的静态和瞬时对象。
•
基于启发式的方法:
利用手工设计的启发式规则在NeRF训练期间从静态场景中分离瞬时干扰物,由于它们不需要先验知识,因此更具普适性。然而,设计能够准确分离的启发式规则是困难的,例如,NeRF-W 观察到瞬时对象的密度通常较小,并基于这一假设来约束NeRF训练,但这可能导致产生不是瞬时对象的小密度雾状残留;RobustNeRF通过颜色残差来区分瞬时像素和静态像素,因为在NeRF训练中瞬时像素更难以拟合,但这同样使得静态对象的高频细节难以拟合,这可能导致RobustNeRF在处理瞬时干扰物时也忽略它们。
解决方案