当前位置: 代码迷 >> 综合 >> Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes
  详细解决方案

Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes

热度:30   发布时间:2024-02-05 22:29:22.0

Learning latent geometric consistency for 6D object pose estimation in heavily cluttered scenes

在杂乱无章的场景中学习6D对象姿态估计的潜在几何一致性

abstract

从RGB-D图像估计6D对象姿态(3D旋转和平移)是计算机视觉中一项重要且具有挑战性的任务,已广泛应用于各种应用中,例如机器人操纵,自动驾驶,增强现实等。来自单个帧的局部外观的特征或原因,它忽略了两个帧之间的空间几何相关性,从而限制了它们在杂乱无章的场景中对遮挡或截断的对象的性能。在本文中,我们提出了一种双流网络,用于从RGB-D图像估计一组已知对象的6D姿态。我们的新颖性与先前的工作形成了鲜明对比,之前的工作以自监督的方式从对同一对象的多次观察中学习成对的密集特征表示中的潜在几何一致性。我们在实验中表明,在两个具有挑战性的数据集(YCB-Video和LineMOD)中,我们的方法在6D对象姿态估计方面优于最新方法。

1.Introduction

6D对象姿态(3D旋转和平移)估计是计算机视觉中的一项关键技术挑战,它提供了与各种应用程序相关的重要信息,例如机器人操纵,自动驾驶,增强现实等。在深层卷积神经网络的成功推动下( CNN),许多最新方法在这些应用中显示出显着的改进,或者还展现出良好的速度精度折衷。关于使用深度网络进行6D对象姿态估计的当前文献可以分为两类:
(i)使用深度学习技术从图像直接估计6D对象姿态的方法。
(ii)利用几何和局部外观来推断6D对象姿态的方法。

第一组方法[1-8]证明,可以通过了解全局上下文来解决对象姿态估计。受益于全局条件,这些方法与基于手工功能的经典方法相比甚至可以达到更好的性能。然而,由于对象经常在杂乱的场景中被截断或遮挡,因此当应用于杂乱的真实世界图像时,这些方法远非鲁棒性,因此它们的定量评估是在PASCAL 3D +验证集的子集上完成的,该子集是非截断且非-封闭。为了在混乱的场景中获得更好的性能,方法[2,4,6–8]利用深度信息来提高其在被遮挡物体上的性能。但是,这些方法的性能会随着遮挡的增加而大大降低。

由于在混乱的场景中缺少足够的全局上下文信息,因此第二组方法需要考虑几何和局部外观信息,这为在多个应用程序中处理截断或遮挡的对象铺平了道路,尤其是机器人操纵和自动驾驶。这些方法可以进一步细分为两类:(i)首先预测热图或语义关键点(例如对象的3D边界框角的一组2D / 3D关键点或2D投影),然后在对象中使用此类补丁或点的方法。几何推理框架(例如,PnP算法[14])以恢复对象姿势作为下游任务。
(ii)编码几何和局部外观并在每个像素或小块上产生预测的方法,然后以类似于RANSAC [15]的方式为最终结果投票。

前一组方法[16–21]利用对象姿势,语义关键点/补丁和相应的3D模型的自然表述,旨在找出对象姿势与一组语义关键点/补丁的几何约束之间的内在映射。与在混乱场景中基于全局上下文的方法相比,这些方法已获得了竞争性能。但是,由于对象的不同部分在视觉上看起来是相同的,并且对象的语义关键点/补丁可能是共面的或在输入图像之外,因此当将这些关键点/补丁应用于截断或遮挡的对象时,这些方法仍然不是很可靠在混乱的场景中,这会降低对象姿态估计的性能。

由于便宜的RGB-D传感器的出现使深度信息能够在各种应用中被6D对象估计技术很好地利用,因此后者的学习子组提供了一种在混乱场景中估计被截断或被遮挡的对象的6D姿势的替代方法。基于方法的方法[22–24],其中小的RGB-D色块在6D空间中投票支持对象姿势假设。这些投票方案基于经典的Random Forest及其变体Hough Forest,其中选定的功能可能会强烈影响完成6D对象姿态估计任务所需的投票数量。与基于稀疏语义关键点/补丁的方法相比,这些方法对截断或遮挡的对象更健壮。但是,这样的方法没有考虑全局背景,而忽略了对整体内在空间关系的了解,这导致了明显的性能下降。为了克服这个缺点,DenseFusion [25]将RGB值和点云嵌入并融合到色深嵌入空间中,并使用全局密集融合功能丰富它们,以提供每个像素级别的全局上下文,然后启用具有来自对象的可见和不可见部分的置信度得分的像素预测,因此可以通过具有最高置信度的特定像素预测来生成对象的最终6D姿态预测,该预测主要来自截断或遮挡的对象的可见部分。尽管DenseFusion [25]在YCB-Video和LineMOD这两个基准测试中均优于以前的方法,但其提出的训练设置仅对单个帧的颜色和深度信息进行编码,从而忽略了视频帧之间的空间几何相关性,从而限制了其在混乱情况下的性能场景,尤其是对于严重的遮挡和分割错误。

取而代之的是,许多方法都探索了CNN表示形式中的相对空间特征,例如capsule framework及其变体[19,27–32],它们在隐藏状态向量的大小和方向上强制了潜在结构。受到这些先前工作的启发,我们首先考虑一种自然的表达方式,即可以通过使用透视变换将3D点投影到图像平面中来形成场景视图,然后观察通过变换的对象的局部特征空间中潜在的几何一致性。不同的视角转换。基于这种自然表达方式,我们提出了在多个RGB-D帧上训练的端到端双流深度学习网络,而不是从每个单独的RGB-D帧中编码部分整体的固有空间关系。如图1所示,跨同一对象的不同视点的空间几何相关性。通过探索跨视角的空间几何相关性,我们的框架相对于逐帧训练在单个RGB-D图像上的基于学习的方法具有明显的优势。我们的方法的关键在于,我们的双流网络不仅考虑了部分整体内在空间关系的知识,而且在整个视角上都施加了结构约束。具体而言,我们的框架是一种异构体系结构,可在训练集中随机处理一个对象的两个框架,从中构建几何感知的体系结构和相对刚性变换损失函数,以了解两个框架之间潜在的几何一致性。

我们在两个流行的6D对象姿态估计基准测试中评估了我们的方法,即YCB视频数据集和LineMOD数据集。
图1.给定来自YCB视频数据集的两个帧,我们提出了一个端到端双流深度学习网络目标,以学习对象的两个视图(帧u和帧v)之间的潜在几何一致性。对于帧u; Ruis用四元数参数化旋转参数,对Tuis进行平移参数化(对于相对于帧v的Rvand Tv同样)。在这里插入图片描述图1.给定来自YCB视频数据集的两个帧,我们提出了一个端到端双流深度学习网络目标,以学习对象的两个视图(帧u和帧v)之间的潜在几何一致性。对于帧u; Ruis用四元数参数化旋转参数,对Tuis进行平移参数化(对于相对于帧v的Rvand Tv同样)

为了确保公平的比较,我们遵循先前的工作[25]并使用由PoseCNN [4]发布的相同的分割蒙版,而没有任何先验的检测。在YCB视频数据集中,我们在实验中显示,在迭代最近点(ICP)细化[4]和DenseFusion [25]细化0.6%之后,我们的方法优于最新的PoseCNN。在LineMOD数据集中,我们的方法获得了明显更好的估计,并且在ICP细化[4]后和DenseFusion [25]在1.5%之后均优于最新的PoseCNN。总而言之,我们的端到端双流深度学习框架取得了显着更好的结果,尤其是对于在杂乱无章的场景中被遮挡和截断的对象。我们工作的主要贡献如下:

*提出了一种端到端的双流深度学习网络。成对的密集特征是由我们的异构体系结构生成的,以探索两个流之间的潜在空间关系。
*提出了一种精心构造的相对刚性变换损失函数。可以学习跨视角的潜在几何一致性,以跨对象的不同视点强制执行结构约束。

在本文的其余部分中,我们首先介绍用于生成成对密集特征的双流网络异构体系结构,然后详细介绍所提议的潜在几何一致性模块,最后对严重混乱的场景进行定量评估,这表明我们的方法优于两个具有挑战性的数据集中的最先进方法:YCBVideo和LineMOD。

2. Method

在本节中,我们将描述我们的端到端深度学习网络,该网络用于在混乱场景中呈现的一组已知对象的6D对象姿势估计。

2.1架构概述

我们的双流架构的概述如图2所示,其中包括三个主要步骤。第一步,将相同对象的两个视图作为建议的双流异构体系结构的输入,其中来自每个视图的颜色和深度信息被编码为嵌入并在对应的像素处并行融合。在第二步中,我们的双流网络从跨不同视图的成对级联相对嵌入中学习潜在的几何一致性,这对于混乱场景中的当前性能瓶颈特别重要。在第三步中,将端到端双流迭代相对姿态优化模块集成到主要过程中,以进一步改善6D对象姿态估计。

在这里插入图片描述
图2.我们的方法概述。在训练期间,将RGB-D图像中相同对象的两个视图(u和v)作为输入提供给我们的端到端双流深度学习网络。提供两个视图之间的已知相对刚性变换(旋转Ruvand平移Tuv)作为监视信号。我们的双码流网络可学习潜在的几何一致性和视角。在推论过程中,我们的网络从单个输入的RGB-D图像估计6D对象姿态。 (为简单起见,此处未描述迭代相对姿势优化模块。)

2.2成对密集特征提取

我们的网络从混乱场景中的两个视图检测对象,同时为每个实例生成一个分割蒙版。需要使用检测到的2D边界框来裁剪彩色图像,然后使用已知的相机固有参数将分割蒙版应用于深度像素以生成3D点云。语义分割模块的输出对6D对象姿态估计的性能有相当大的影响,因此,尽管许多现有方法[33-35]已实现了对语义分割的高质量定量评估,但我们仍使用由[ 4]与[4,25]进行合理比较。

我们提出了一种端到端的双流几何嵌入网络,以通过将每个Su / Sv分段点映射到d_geo维特征空间来生成密集的每点特征,并提出一种双流颜色嵌入网络通过将图像裁剪中的每个像素映射到d_rgb维特征空间来提取密集的每像素特征,其中Su和Sv分别表示来自我们网络的u流和v流的分割点。

然后提出了一种密集融合网络,将每个点的几何特征融合到每个像素的对应图像特征上。除了在每个像素处的局部外观外,我们还考虑了全局上下文,并提出了另一个使用Wang等人提出的对称约简函数将图像和几何特征映射到固定大小的全局特征向量的网络。因此,局部外观和全局特征都被集成到了像素级密集特征中,该特征具有三个组成部分:颜色嵌入的特征,几何嵌入的特征和全局上下文的特征。

对于现有作品,他们从第i个像素密集特征估计置信度为ci的6D对象姿态,其中N表示所有像素密集特征的数目,Pi是从第i个像素特征估计的第i个姿态。他们使用置信度得分来决定哪种姿势估计可能是最佳假设。但是,我们的动机是学习u和v流中密集特征之间的潜在几何一致性。为了跨视角共享上下文和结构知识,我们从u和v流中成对选择每个密集特征,可以将其定义为
在这里插入图片描述
其中Fu表示u流中的第ix个像素密集特征,Fv同样。第i对密集特征Fuv通过将像素密集特征Fui和Fv级联来生成。

我们的双流网络输出具有相应置信度得分cu cv的成对密集特征,从中我们学习从视点u到视点v的潜在几何一致性。我们将详细介绍这一重要的学习目标,我们将在下一部分中看到。

2.3学习潜在的几何一致性

在本节中,我们详细介绍了基于潜在几何一致性的跨视角的相对姿态目标函数的关键技术,这与以前在逐帧RGB-D图像上训练的网络形成对比。

先前的工作着重于以监督的方式使地面真实姿态与从每个像素方向的密集特征预测的姿态之间的残留误差最小化,但是,我们的框架从不同的观测角度探索了CNN表示中的相对特征。同一对象。具体而言,我们着重于以自监督的方式使从每个成对的密集特征估计的地面真相相对姿态Puv和预测的相对姿态Puv之间的残留相对误差最小。可以通过目标姿态转换Pu和Pv推断地面真相相对姿态Puv:
在这里插入图片描述
分别具有3D旋转Ruv和平移Tuv,并且对于预测的相对变换Puv,目标姿态变换Pu和Pv同样如图3所示。

现在,我们仔细研究残余相对误差。我们定义了成对的相对刚性变换损耗φuv,以测量残余相对误差,作为相对真实变换Puv中的对象模型上采样的点与通过估计的相对变换Puv_i变换的同一对象模型上的对应点之间的距离。将第i个成对密集特征最小化的损耗φuv_i定义为
在这里插入图片描述
其中xj表示对象模型上M个随机选择的3D点的第j个点.Ruv_i和Tuv_i分别代表估计的3D旋转和从视点u到视点v的平移。尽管上面的相对转换损耗φuv_i对于非对称对象定义得很好,但是对称对象(例如碗,木块和大夹子)在语义上相似,从不同角度看起来在视觉上是相同的,因此不能初始化为唯一的规范框架。因此,我们为对称对象提出了各种成对的相对刚性变换损失,以最小化通过估计的相对变换Puv_i变换后的对象模型上的每个点与地面真实对象模型上的最近点之间的距离,定义为
在这里插入图片描述
在这里插入图片描述
图3.地面真相变换包括三个分量:
(a)从规范视点到视点u的变换Pu
(b)从规范视点到视点v的变换Pv
(c)从视点u到视点v的相对刚性变换Puv估计的转换具有类似的形式。

对于非对称物体和对称物体,我们的双流网络通过我们建议的相对刚性变换损耗φuv_i很好地学习了整个视角的潜在几何一致性,但是,坐标系统中的多个视点对具有相同的变换损耗,例如视点u以及视点v同时由随机变换P_rand变换,从而导致学习目标模糊。因此,提出了一个目标客观转换损耗,作为相对刚性转换损耗的补充,该相对刚性转换损耗在地面实物模型的每个位置处都作为锚点。在我们的u流中,将第i个像素特征的不对称物体的目标客观转换损失定义为
在这里插入图片描述
其中xj对应于等式中的相同采样点。对于对称物体,将目标变换损失φu的第i个像素方向特征定义为
在这里插入图片描述
同样,v流中非对称对象的目标转换损失φv及其对称对象的变体在Eq和Eq中分别具有类似的φu形式。
定义了成对的相对和目标转换损失,每个目标的总损失物流包含两个成分,目标转化损失和相对转化损失。在φu流中,总损耗可以定义为
在这里插入图片描述
用λ表示相对刚性转换损耗的正则化参数。 N表示成对的密集特征集的数量,如2.2节所述。另外,为了平衡像素化变换损失之间的置信度,我们对像素化变换损失进行加权,并引入第二个置信度正规化项:
在这里插入图片描述
其中ω是平衡超参数,置信度得分c_u与估计的变换Pu有关(对于带有cu cv的Puv同样如此)。直觉上,低置信度将导致较低的姿态估计损失,但从第二项起将产生较高的惩罚,反之亦然。在v流中,总损耗φv具有类似的φu形式,其中考虑了φv和φuv。

2.4迭代细化

迭代最近点(ICP)算法被广泛用于精化6D目标姿态。随着ICP精化及其变体的出现,许多方法进一步提高了6D对象姿势的精确度。然而,这类方法只关注个体角度的残余姿态,我们提出了一种基于神经网络的u流和v流迭代求精模块,该模块可以与我们的双流主架构联合进行快速和鲁棒的训练。

给出主双流网络的一对初始6D物体姿态估计Pu_init和Pv_init,分别用预测的Pu_init和Pv_init对点云进行变换,然后将它们作为输入点云送入PointNet。在下文中,我们使用来自PointNet的变换几何嵌入和来自主双流网络的颜色嵌入来预测残差变换Pu_R0和PV_R0。在下一次迭代中,我们首先利用预测的残差变换Pu_R0和PV_R0对当前点云进行变换,然后将它们作为输入云送入PointNet。在K次迭代之后,u流中的最终姿势估计是每次迭代估计的串联:
在这里插入图片描述
类似地,v流中的最终姿势估计PV具有类似形式的PU。

3.实验

为了证明我们的双流网络在杂乱场景中对严重遮挡和分割错误的相对鲁棒性,我们在3.1节中提出的两个具有挑战性的6D目标姿态估计数据集:YCB-Video DataSet和LineMOD DataSet[39]上对我们的方法进行了评估,相应的结果分别在3.4节和3.5节中报告,其中平均最近点距离(ADD-S)[4]和平均模型点距离(ADD)[40]被用于第3.2节中详细描述的评估。我们还在3.3节中介绍了我们的实现细节,并在3.6节中对我们的相对刚性转换损失进行了实证分析。

3.1.数据集

YCB-视频数据集:YCB-Video数据集[4]由77个形状和纹理不同的对象组成。我们遵循前面的工作[4,25],这些工作使用了21个YCB对象的子集,这些对象是由于高质量的3D模型和良好的深度可见性而选择的。数据集包含92个RGB-D视频,其中对象用6D姿势、分段蒙版和3D模型进行注释。我们将数据集分割成80个视频,用于对从其余12个测试视频中提取的2949个关键帧进行训练和测试。此外,为了确保与[4,25]进行公平比较,我们还额外使用了一组由[4]发布的8万张合成图像进行训练。在我们的实验中,我们将我们的双流网络与验证集上性能最好的三种方法进行了比较:PointFusion[38],PoseCNN+ICP[4]和DenseFusion[25]。

LineMOD数据集:LineMOD数据集[39]是一个广泛使用的基准,它由13个形状不同、纹理较低的对象组成,用于在杂乱场景中估计6D对象的姿态。为了确保与以前的工作[18,25,41,42]进行公平的比较,我们使用相同的训练和测试数据集,而没有额外的合成数据。在我们的实验中,我们将我们的双流网络与验证集上性能最好的六种方法进行了比较:BB8[41],PoseCNN+DeepIM[4,42],隐式+ICP[37],SSD-6D+ICP[36],PointFusion[38],DenseFusion[25]。

3.2量度

ADD指标。平均距离(ADD)是在文献[1]中提出的一种用于6D物体位姿评价的方法。给定地面真实姿势RT和估计姿势RT,平均距离(ADD)是根据RT和RT变换的3D模型点之间的平均成对距离。如果平均距离小于3D模型直径的10%,则认为姿势估计是正确的。

ADD-S指标。在[4]中提出了对称物体的平均最近点距离(ADD-S)。给定地面真实姿态RT和估计姿态RT,平均最近点距离是RT转换的每个3D点与RT转换的3D模型上的最近点之间的平均距离。我们还根据先前的工作报告了ADD-S曲线(AUC)下的面积[4,25]。

3.3实施细节

我们的双流网络是使用PyTorch实现的。颜色嵌入模块由Resnet-18编码器和4个上采样层作为解码器组成。 PointNet模块是一个MLP,后面是平均池缩减功能。颜色和几何密集特征的维数为128。Eq8和Eq9中的λ为0.3,Eq中的ω为0.01。优化模块包括一个完全连接的层,所有实验的优化迭代K = 2。

我们的培训阶段包括三个步骤。在一开始,我们仅使用目标转换损耗从单个RGB-D图像中逐帧训练双流网络。当网络收敛并且测试精度达到0.015时,我们开始学习同一对象的两个视图之间的潜在几何一致性。当测试精度达到0.0125时,我们将联合训练我们的双流网络和残差姿势估计网络。

3.4 YCB视频数据集评估

我们将YCB视频数据集上不同设置下的6D对象姿态估计方法与最新方法PointFusion,PoseCNN + ICP和DenseFusion进行了比较,从使用相对刚性变换损失的基线到使用迭代细化的完整模型。为了确保公平的比较,所有方法都重新实现与PoseCNN [4]中相同的分割掩码。据报道,ADD-S AUC(<0.1 m)和ADD-S <2 cm用于评估性能,结果列于表1。

鲁棒的细分错误
我们的关键思想是考虑两个视图之间的潜在几何一致性,以便即使某些对象处于严重缺陷的分割之下,我们的方法也可以快速可靠地恢复其6D姿势。图5给出了“ 052_extra_large_clamp”的详细评估,由于PoseCNN [4]释放的大量细分错误,表1的性能下降。我们在最上面一行的精度-旋转角度阈值曲线下以及最下面一行的精度-平移阈值曲线下可视化区域,其中阈值分别针对旋转角度和平移而变化。

如图5所示,我们可以看到,在这两个指标上,我们的方法都优于DenseFusion [25](当前的最新技术)。特别是,即使没有迭代细化步骤,我们的方法(相对)也明显优于DenseFusion(迭代)[25],这表明我们精心构造的相对刚性变换损耗函数使网络能够学习不同视图下的潜在几何一致性,从而可以估计6D对象姿态对严重分割错误的鲁棒性。

定性评估图4显示了一些定性结果。我们的方法可以预测不同类别物体的准确6D姿态。如我们所见,对于严重遮挡的情况,当前方法PointFusion [38],PoseCNN + ICP [4]和DenseFusion [25]无法估计前两列中某些被遮挡对象(例如003_cracker_box和010_potted_meat_can)的正确姿势,而我们的方法仍然很健壮。对于第三列和第四列中的无纹理对称对象(例如024_bowl和061_foam_brick),由于迭代优化模块利用了几何信息,从而使我们的双流网络可以更新跨不同视图的几何嵌入,因此我们的方法相对于PointFusion [38]提高了性能。 ],PoseCNN + ICP [4]和DenseFusion [25]。对于不完整的分割对象,例如052_extra_large_clamp,尽管由于PoseCNN [4]释放的大量分割错误,所有方法的性能都会显着降低,但我们的方法在训练中学习了潜在的几何一致性,并在各个视角共享上下文和结构知识,因此如第五列所示,在推理中的性能要优于PointFusion [38],PoseCNN + ICP [4]和DenseFusion [25]。
在这里插入图片描述
在这里插入图片描述
图4. YCB视频结果的定性结果。通过预测的6D对象姿态变换不同颜色的对象点云,然后将其投影到相应的图像。为了确保公平的比较,我们使用与PoseCNN [4]中相同的分割蒙版。
在这里插入图片描述
图5. 052_extra_large_clamp的详细评估,由于PoseCNN [4]释放的大量分段错误,表1中的性能下降。

3.5对LineMOD数据集的评估

我们将我们的方法与采用RGB或RGB-D图像作为输入和输出6D对象姿势的方法进行了比较。根据先前的工作,结果在LineMOD数据集的表2中以非对称对象的ADD度量[40]和两个对称对象(例如鸡蛋盒和胶水)的ADDS度量[4]表示。

我们的方法比深度细化方法[36]的性能高16.9%,与专为遮挡设计的DenseFusion [25]相比,我们的方法又有1.5%的改进。这证明了我们学到的潜在几何一致性有助于在杂乱无章的场景中实现6D对象姿态估计的任务。在处理了迭代优化方法之后,我们的方法在LineMOD数据集上实现了最新的性能。定性结果如图6所示。
在这里插入图片描述

3.6相对转化损失分析

为了分析第2.3节中讨论的相对变换损失,我们集中在我们的主要双流异构架构(相对)上,探讨学习的潜在几何一致性在6D对象姿态估计中的作用。我们首先进行实验以分析目标效果和相对转换损失函数。

图7显示了004_sugar_box,007_tuna_fish_can和052_extra_large_clamp的带有旋转角度误差,平移误差和平均距离误差的精度-阈值曲线,在此我们将方法(相对)与DenseFusion [25](逐像素)进行了比较,但没有进行迭代精化。该数据集。前两行表明,DenseFusion和我们的方法均达到了ADDS <2 cm的最佳性能,而随着阈值逐渐降低,DenseFusion的性能降级的速度比我们的方法快。最后一行表明,即使存在严重的分割错误(由PoseCNN [4]发布),我们的方法在像素方面也明显优于DenseFusion(逐像素),并且使用迭代细化步骤进一步超过了DenseFusion(迭代),事实证明,学习潜在的几何一致性对于严重的分割错误和遮挡场景具有鲁棒性。
在这里插入图片描述
图7.YCB-Video数据集上具有平均距离误差、旋转误差和平移误差的精度-阈值曲线

对表1中的“DenseFusion(每像素)”和“Our(相对)”进行详细比较,我们提出的相对变换损失可以得到更好的6D对象姿态估计。总体而言,我们的方法明显优于PointFusion[38],PoseCNN[4]和DenseFusion[25],这表明在严重杂乱的场景中,跨视角学习潜在几何一致性比这些基于学习的方法在单个RGB-D图像上逐帧训练具有明显的优势。

4. Conclusion

在本文中,我们引入了用于在杂乱场景中进行6D对象姿态估计的双流网络。我们精心设计了网络体系结构和目标功能,并证明了在不同视图中学习潜在的几何一致性要比从密集的逐像素特征直接回归6D对象姿态获得更好的性能。在实验上,我们的方法在YCB视频数据集和LineMOD数据集上均优于最新方法。我们希望这些结果能激发未来对不同视图中被遮挡或截断的对象的几何一致性的研究。

  相关解决方案