当前位置: 代码迷 >> 综合 >> Semantic3D:A New Large-Scale Point Cloud Classification Benchmark
  详细解决方案

Semantic3D:A New Large-Scale Point Cloud Classification Benchmark

热度:16   发布时间:2024-03-08 20:22:59.0

摘要

本文提出了一个新的3D点云分类基准数据集,该数据集包含超过40亿个手动标记的点,旨在作为深度学习方法的输入。我们还讨论了第一次提交给基准测试的以深度卷积神经网络作为平台,它已经显示出显著的性能改进超过了最先进的水平。神经网络已经成为计算机视觉和机器学习中许多任务的事实上的标准,例如图像中的语义分割或对象检测,但是由于缺乏训练数据,还没有导致3D点云标记任务的真正突破。通过本文提供的大量数据集,我们旨在缩小这一数据差距,帮助释放深度学习方法在3D标签任务中的全部潜力。我们的semantic3D.net数据集由静态激光扫描仪获得的密集点云组成。它包含8个语义类,涵盖了广泛的城市户外场景:教堂,街道,铁轨,广场,村庄,足球场和城堡。我们描述了标记界面,并表明我们的数据集提供了更密集和更完整的点云,与那些可供研究社区使用的点相比,标记的点数要高得多。我们进一步提供基线方法描述和提交给我们在线系统的方法之间的比较。我们希望semantic3D.net将为3D点云标记的深度学习方法铺平道路,以学习更丰富,更通用的3D表示,仅几个月后的首次提交表明,情况可能确实如此。

介绍

为了加速开发点云处理的强大算法,我们提供了迄今为止最大的地面激光扫描集合,带有点级语义地面真实注释。它总共有410^9个点和8个类的类标签组成。数据集被分为大小大致相等的训练集和测试集。扫描具有挑战性,不仅因为每次扫描高达410 ^9个点,还因为它们的高测量分辨率和长测量距离,导致极端的密度变化和大的遮挡。

目标

给定一组点(这里:来自于静态地面激光扫描仪的密集扫描),我们希望为每个点推断出一个单独的类标签。我们提供了三种基线方法,用于代表最近用于该任务的典型分类方法。

i)二维图像基线:

许多最先进的激光扫描仪也可以为扫描的场景获取颜色值甚至整个彩色图像。彩色图像可以添加可能有助于分类的其他实物证据。首先,朴素基线只对二维彩色图像进行分类,而不使用任何深度信息,从而建立了一个链接到大量关于二维语义图像分割的文献。现代的方法使用深卷积神经网络作为工作的基础。像SegNet(Badrinarayanan等人,2015)这样的编码-解码器架构能够一次推断出整个图像的标签。深层结构也可以与条件随机场(CRF)结合(Chen等人,2016)。我们在第3.1节中的基线方法涵盖了基于图像的语义分割。

ii)三维协方差基线

一种利用三维信息的更加具体的方法是直接处理点云。我们使用最新实现的标准分类管道,即从3D(多尺度)邻域中提取手工制作的特征,并将其输入到判别学习算法中。典型特征基于点邻域的协方差张量(Demantke等,2011)或随机直方图集(Blomley等,2014)来编码表面特性。另外,高度分布可以通过使用圆柱邻域进行编码(Monnier等人,2012年,Weinmann等人,2013年)。第二种基线方法(第3.2节)代表这一类别。

iii)三维卷积神经网络(CNN)基线

将深度学习应用于三维点云是一个相当明显的扩展,它主要使用体素网格来获得规则的邻域结构。为了有效地处理密度变化很大点云中的大规模点邻域,最近的研究使用了自适应邻域数据结构,如八叉树(Wu et al.,2015,Brock et al.,2017,Riegler et al.,2017)或稀疏体素网格(Engelcke et al.,2017)。在第3.3节中,我们第三种基线方法是一个直接实现的基本的三维体素网格卷积神经网络。

  相关解决方案