目录
写在前面
详解TimePillars
Input preprocessing
Model architecture
Feature Ego-Motion Compensation
实验
讨论
结论
首页 科技周边 人工智能 TimePillars:让纯LiDAR 3D检测路线延伸至何方?直接覆盖200m!

TimePillars:让纯LiDAR 3D检测路线延伸至何方?直接覆盖200m!

Jan 24, 2024 am 11:57 AM
安全 自动驾驶

基于LiDAR点云点3D Object Detection一哥是一个很经典的问题,学术界和工业界都提出了各种各样的模型来提高精度、速度和鲁棒性。但因为室外的复杂环境,所以室外点云的Object Detection的性能都还不是太好。而激光雷达点云本质上比较稀疏,如何针对性得解决这一问题呢?论文给出了自己的答案:依照时序信息的聚合来完成信息的提取。

写在前面

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

这篇论文主要探讨了自动驾驶面临的一个重要挑战:如何精确地建立周围环境的三维表示。这对于确保自动驾驶汽车的可靠性和安全性至关重要。特别是,自动驾驶车辆需要能够识别周围的物体,如车辆和行人,并准确地确定它们的位置、大小和方向。通常情况下,人们使用深度神经网络处理激光雷达(LiDAR)数据来完成这个任务。

目前的研究主要集中在单帧方法上,即使用一个传感器一次扫描的数据。这种方法在经典基准测试中表现出色,可以检测到距离达到75米的物体。然而,激光雷达点云的稀疏性在远距离范围内尤为明显。因此,研究者认为仅仅依靠单个扫描进行长距离检测是不够的,例如,达到200米的距离。因此,未来的研究需要着重解决这个挑战。

为了解决这个问题,一种方法是使用点云聚合,即将一系列激光雷达扫描数据连续起来,从而获得更密集的输入。然而,这种方式在计算上代价高昂,并且无法充分利用在网络内部进行聚合所带来的优势。为了降低计算成本并更好地利用信息,可以考虑使用递归方法。递归方法可以在时间上积累信息,并通过迭代地将当前输入与之前的聚合结果进行融合,从而得到更准确的输出。这种方法不仅能够提高计算效率,还能够有效地利用历史信息,提高预测的准确性。递归方法在点云聚合问题中具有广泛的应用,并且已经取得了令人满意的结果。

文章还提到,为了增加检测范围,一些先进的操作可以被采用,比如稀疏卷积、注意力模块和3D卷积。然而,这些操作通常忽略了目标硬件的兼容性问题。在部署和训练神经网络时,使用的硬件往往在支持的操作和延迟方面存在显著差异。举个例子,Nvidia Orin DLA等目标硬件通常不支持稀疏卷积或注意力等操作。此外,由于实时延迟要求,使用3D卷积等层往往是不可行的。这就强调了使用简单操作,比如2D卷积的必要性。

论文中提出了一个新型的时序递归模型,TimePillars,该模型尊重常见目标硬件上支持的操作集,依赖于2D卷积,基于点柱(Pillar)输入表示和一个卷积递归单元。通过单个卷积和辅助学习的帮助,对递归单元的隐藏状态应用了自车Motion Compensation。通过消融研究表明,使用辅助任务来确保这种操作的正确性是恰当的。论文还研究了递归模块在管道中的最佳位置,并清楚地表明,将其放置在网络的骨干和检测头之间可以获得最佳性能。在新发布的Zenseact开放数据集(ZOD)上,论文展示了TimePillars方法的有效性。与单帧和多帧点柱基线相比,TimePillars取得了显著的评估性能提升,特别是在重要的自行车手和行人类别中,在远距离(长达200米)的检测上表现尤为突出。最后,TimePillars的延迟显著低于多帧点柱,使其适合实时系统。

这篇论文提出了一个名为TimePillars的新时序递归模型,用于解决3D激光雷达物体检测任务,并且考虑了常见目标硬件支持的操作集。通过实验证明,TimePillars在长距离检测上相比单帧和多帧点柱基线取得了显著更好的性能。此外,该论文还首次在Zenseact开放数据集上对3D激光雷达物体检测模型进行了基准测试。 然而,该论文的局限性在于它仅关注激光雷达数据,没有考虑其他传感器输入,并且其方法基于单一的最新基线。尽管如此,作者认为他们的框架是通用的,即未来对基线的改进将转化为整体性能的提升。

详解TimePillars

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

Input preprocessing

在这篇论文的“输入预处理”部分,作者使用了一种称为“柱化”(Pillarisation)的技术来处理输入的点云数据。与常规的体素化不同,该方法将点云分割成垂直的柱状结构,只在水平方向(x和y轴)上进行分割,而在垂直方向(z轴)上保持固定的高度。这种处理方式的好处是可以保持网络输入尺寸的一致性,并且可以使用2D卷积进行高效处理。通过这种方式,可以有效地处理点云数据,为后续的任务提供更准确和可靠的输入。

然而,Pillarisation处理的一个问题是产生了许多空的柱子,导致数据非常稀疏。为解决这个问题,论文中提出了使用动态体素化技术。这种技术避免了为每个柱子设置预定义点数的需求,从而不需要对每个柱子进行截断或填充操作。相反,整个点云数据被整体处理,以匹配到所需的总点数,这里设置为20万个点。这种预处理方法的好处是,它最大程度地减少了信息的损失,并且使得生成的数据表示更加稳定和一致。

Model architecture

然后对于Model architecture,作者详细介绍了一个由柱特征编码器(Pillar Feature Encoder)、2D卷积神经网络(CNN)骨干和检测头组成的神经网络架构。

  1. Pillar Feature Encoder:这个部分将预处理后的输入张量映射成鸟瞰视图(BEV)伪图像。使用动态体素化后,简化的PointNet进行了相应的调整。输入经过1D卷积,批量归一化和ReLU激活函数处理,得到一个形状为  的张量,其中  代表通道数。在最终的散射最大化(scatter max)层之前,对通道应用最大池化,形成形状为  的潜在空间。由于初始张量被编码为 ,在前面的层之后变成 ,因此去掉了最大池化操作。
  2. Backbone:采用原始柱状论文中提出的2D CNN骨干架构,由于其深度效率比较优越。使用三个下采样块(Conv2D-BN-ReLU)缩小潜在空间,并使用三个上采样块和转置卷积将其恢复,输出形状为 
  3. Memory Unit:将系统的记忆建模为一个递归神经网络(RNN),具体采用卷积GRU(convGRU),这是Gated Recurrent Unit的卷积版本。卷积GRU的优势在于避免了梯度消失问题,并且在保持空间数据特性的同时提高了效率。与其他选择,如LSTM相比,GRU由于门的数量更少,因此具有更少的可训练参数,可以视为一种记忆正则化技术(降低隐藏状态的复杂性)。通过合并类似性质的操作,减少了所需卷积层的数量,从而使单元更高效。
  4. Detection Head:对SSD(Single Shot MultiBox Detector)进行了简单的修改。保留了SSD的核心理念,即单次通过且无需区域提议,但取消了锚盒(anchor boxes)的使用。直接为网格中的每个单元格输出预测,虽然失去了单元格多对象检测能力,但避免了繁琐且常常不精确的锚盒参数调整,并简化了推理过程。线性层处理分类和定位(位置、大小和角度)回归的各自输出。只有大小使用激活函数(ReLU),以防止取负值。此外,不同于相关文献,论文通过独立预测车辆行驶方向的正弦和余弦分量,并从中提取角度,避免了直接角度回归的问题。

Feature Ego-Motion Compensation

在论文这一部分,作者讨论了如何处理由卷积GRU输出的隐藏状态特征,这些特征是以前一帧的坐标系表示的。如果直接存储并用于计算下一个预测,由于自我运动(ego-motion)会发生空间不匹配。

为了进行转换,可以应用不同的技术。理想情况下,已经校正的数据将被输入网络,而不是在网络内部进行转换。然而,这不是论文提出的方法,因为它需要在推理过程中的每一步重置隐藏状态,转换之前的点云,并将它们传播到整个网络。这不仅效率低下,而且违背了使用RNN的目的。因此,在循环上下文中,补偿需要在特征级别进行。这使得假设的解决方案更高效,但也使问题变得更复杂。传统的插值方法可以用来获取变换坐标系中的特征。

与此相反,论文中受到Chen等人工作的启发,提出使用卷积操作和辅助任务来执行变换。考虑到前述工作的细节有限,论文提出了针对该问题的定制解决方案。

论文采取的方法是通过一个额外的卷积层,为网络提供执行特征转换所需的信息。首先计算两个连续帧之间的相对变换矩阵,即成功变换特征所需执行的操作。然后,从中提取2D信息(旋转和平移部分):

这种简化避免了主要矩阵常数,并在2D(伪图像)域中工作,将16个值简化为6个。然后将矩阵展平,并扩展以匹配要补偿的隐藏特征的形状 。第一个维度表示需要转换的帧数。这种表示使其适合于在隐藏特征的通道维度中串联每个潜在柱子。

最后,隐藏状态特征被输入到一个2D卷积层中,该层适合变换过程。需要注意的一个关键方面是:卷积的执行并不保证变换的进行。通道串联只是为网络提供了关于如何可能执行变换的额外信息。在这种情况下,使用辅助学习是合适的。在训练过程中,添加了一个额外的学习目标(坐标变换)与主要目标(物体检测)并行。设计一个辅助任务,其目的是在监督下引导网络通过变换过程,以确保补偿的正确性辅助任务仅限于训练过程。一旦网络学会了正确地变换特征,它就失去了适用性。因此,在推理时不考虑该任务。下一节中将进一步实验,对比其影响。

实验

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

实验结果表明,TimePillars模型在处理Zenseact Open Dataset(ZOD)帧数据集时表现出色,特别是在处理长达120米的范围时。这些结果凸显了TimePillars在不同运动转换方法下的性能差异,并与其他方法进行了比较。

在对比基准模型PointPillars和多帧(MF)PointPillars后,可以看出TimePillars在多个关键性能指标上取得了显著提升。尤其是在NuScenes Detection Score(NDS)上,TimePillars展示了更高的综合评分,反映了其在检测性能和定位精度方面的优势。此外,TimePillars在平均转换误差(mATE)、平均尺度误差(mASE)和平均方向误差(mAOE)上也取得了更低的数值,表明其在定位准确性和方向估计上更为精准。特别值得注意的是,TimePillars在运动转换方面的不同实现方法对性能有显著影响。当采用卷积基的运动转换(Conv-based)时,TimePillars在NDS、mATE、mASE和mAOE上的表现尤为突出,证明了这种方法在Motion Compensation和提高检测精度方面的有效性。相比之下,使用插值方法的TimePillars虽然也优于基准模型,但在某些指标上不如卷积方法。平均精度(mAP)的结果显示,TimePillars在车辆、骑行者和行人类别的检测上均表现良好,特别是在处理骑行者和行人这些更为挑战性的类别时,其性能提升更为显著。从处理频率(f (Hz))的角度来看,TimePillars虽然不如单帧PointPillars那样快,但与多帧PointPillars相比,其处理速度更快,同时保持了较高的检测性能。这表明TimePillars在保持实时处理的同时,能够有效地进行长距离检测和Motion Compensation。也就是说TimePillars模型在长距离检测、Motion Compensation以及处理速度方面展现出显著优势,尤其是在处理多帧数据和采用卷积基运动转换技术时。这些结果强调了TimePillars在自动驾驶车辆的3D激光雷达物体检测领域的应用潜力。

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

上述实验结果表明,TimePillars模型在不同距离范围内的物体检测性能上表现卓越,尤其是与基准模型PointPillars相比。这些结果分为三个主要的检测范围:0至50米、50至100米和100米以上。

首先,NuScenes Detection Score(NDS)和平均精度(mAP)为整体性能指标。TimePillars在这两项指标上均优于PointPillars,显示出整体上更高的检测能力和定位精度。具体来说,TimePillars的NDS为0.723,远高于PointPillars的0.657;而在mAP方面,TimePillars也以0.570显著超越了PointPillars的0.475。

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

在不同距离范围内的性能对比中,可以看到TimePillars在各个范围内均有更好的表现。对于车辆类别,TimePillars在0至50米、50至100米和100米以上的范围内的检测精度分别为0.884、0.776和0.591,均高于PointPillars在相同范围内的性能。这表明TimePillars在车辆检测方面,无论是近距离还是远距离,都具有更高的准确性。在处理易受伤害的交通工具(如摩托车、轮椅、电动滑板车等)时,TimePillars同样展现了更好的检测性能。特别是在100米以上的范围内,TimePillars的检测精度为0.178,而PointPillars仅为0.036,显示出在远距离检测方面的显着优势。对于行人检测,TimePillars也呈现出更好的性能,尤其是在50至100米的范围内,其检测精度达到了0.350,而PointPillars仅为0.211。即便在更远的距离(100米以上),TimePillars仍能实现一定程度的检测(0.032的精度),而PointPillars在这一范围内的表现为零。

这些实验结果强调了TimePillars在处理不同距离范围内的物体检测任务上的优越性能。无论是在近距离还是在更具挑战性的远距离范围内,TimePillars均能提供更准确和可靠的检测结果,这对于自动驾驶车辆的安全和效率至关重要。

讨论

纯LiDAR 3D检测路在何方?时序递归TimePillars:直接干到200m!

首先,TimePillars模型的主要优点在于其对长距离物体检测的有效性。通过采用动态体素化和卷积GRU结构,模型能够更好地处理稀疏的激光雷达数据,尤其是在远距离物体检测方面。这对于自动驾驶车辆在复杂和变化的道路环境中的安全运行至关重要。此外,模型在处理速度上也显示出了较好的性能,这对于实时应用是必不可少的。另一方面,TimePillars在Motion Compensation方面采用了基于卷积的方法,这是对传统方法的一大改进。这种方法在训练过程中通过辅助任务确保了转换的正确性,提高了模型在处理运动对象时的精确度。

然而,论文的研究也存在一些局限。首先,虽然TimePillars在处理远距离物体检测方面表现出色,但这种性能的提升可能以牺牲一定的处理速度为代价。虽然模型的速度仍适用于实时应用,但与单帧方法相比,仍有所下降。此外,论文主要关注于LiDAR数据,没有考虑其他传感器输入,如相机或雷达,这可能限制了模型在更复杂多传感器环境中的应用。

也就是说TimePillars在自动驾驶车辆的3D激光雷达物体检测方面展现出了显着的优势,特别是在长距离检测和Motion Compensation方面。尽管存在处理速度的轻微折衷和对多传感器数据处理的局限性,TimePillars仍然代表了在这一领域中的一个重要进步。

结论

这项工作表明,考虑过去的传感器数据比仅利用当前的信息更为优越。访问先前的驾驶环境信息,可以应对激光雷达点云的稀疏性质,并导致更准确的预测。我们证明了递归网络作为实现后者的手段是合适的。与通过大量处理创建更密集数据表示的点云聚合方法相比,赋予系统记忆力带来了更加稳健的解决方案。我们提出的方法TimePillars,实现了解决递归问题的一种方式。仅通过在推理过程中增加三个额外的卷积层,我们证明了基本的网络构建模块足以取得显著成果,并保证了现有的效率和硬件集成规范得以满足。据我们所知,这项工作为新引入的Zenseact开放数据集上的3D物体检测任务提供了首个基准结果。我们希望我们的工作能为未来更安全、更可持续的道路做出贡献。

以上是TimePillars:让纯LiDAR 3D检测路线延伸至何方?直接覆盖200m!的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1666
14
CakePHP 教程
1425
52
Laravel 教程
1327
25
PHP教程
1273
29
C# 教程
1252
24
自动驾驶场景中的长尾问题怎么解决? 自动驾驶场景中的长尾问题怎么解决? Jun 02, 2024 pm 02:44 PM

昨天面试被问到了是否做过长尾相关的问题,所以就想着简单总结一下。自动驾驶长尾问题是指自动驾驶汽车中的边缘情况,即发生概率较低的可能场景。感知的长尾问题是当前限制单车智能自动驾驶车辆运行设计域的主要原因之一。自动驾驶的底层架构和大部分技术问题已经被解决,剩下的5%的长尾问题,逐渐成了制约自动驾驶发展的关键。这些问题包括各种零碎的场景、极端的情况和无法预测的人类行为。自动驾驶中的边缘场景"长尾"是指自动驾驶汽车(AV)中的边缘情况,边缘情况是发生概率较低的可能场景。这些罕见的事件

FisheyeDetNet:首个基于鱼眼相机的目标检测算法 FisheyeDetNet:首个基于鱼眼相机的目标检测算法 Apr 26, 2024 am 11:37 AM

目标检测在自动驾驶系统当中是一个比较成熟的问题,其中行人检测是最早得以部署算法之一。在多数论文当中已经进行了非常全面的研究。然而,利用鱼眼相机进行环视的距离感知相对来说研究较少。由于径向畸变大,标准的边界框表示在鱼眼相机当中很难实施。为了缓解上述描述,我们探索了扩展边界框、椭圆、通用多边形设计为极坐标/角度表示,并定义一个实例分割mIOU度量来分析这些表示。所提出的具有多边形形状的模型fisheyeDetNet优于其他模型,并同时在用于自动驾驶的Valeo鱼眼相机数据集上实现了49.5%的mAP

nuScenes最新SOTA | SparseAD:稀疏查询助力高效端到端自动驾驶! nuScenes最新SOTA | SparseAD:稀疏查询助力高效端到端自动驾驶! Apr 17, 2024 pm 06:22 PM

写在前面&出发点端到端的范式使用统一的框架在自动驾驶系统中实现多任务。尽管这种范式具有简单性和清晰性,但端到端的自动驾驶方法在子任务上的性能仍然远远落后于单任务方法。同时,先前端到端方法中广泛使用的密集鸟瞰图(BEV)特征使得扩展到更多模态或任务变得困难。这里提出了一种稀疏查找为中心的端到端自动驾驶范式(SparseAD),其中稀疏查找完全代表整个驾驶场景,包括空间、时间和任务,无需任何密集的BEV表示。具体来说,设计了一个统一的稀疏架构,用于包括检测、跟踪和在线地图绘制在内的任务感知。此外,重

自动驾驶第一性之纯视觉静态重建 自动驾驶第一性之纯视觉静态重建 Jun 02, 2024 pm 03:24 PM

纯视觉的标注方案,主要是利用视觉加上一些GPS、IMU和轮速传感器的数据进行动态标注。当然面向量产场景的话,不一定非要是纯视觉,有一些量产的车辆里面,会有像固态雷达(AT128)这样的传感器。如果从量产的角度做数据闭环,把这些传感器都用上,可以有效地解决动态物体的标注问题。但是我们的方案里面,是没有固态雷达的。所以,我们就介绍这种最通用的量产标注方案。纯视觉的标注方案的核心在于高精度的pose重建。我们采用StructurefromMotion(SFM)的pose重建方案,来保证重建精度。但是传

LLM全搞定!OmniDrive:集3D感知、推理规划于一体(英伟达最新) LLM全搞定!OmniDrive:集3D感知、推理规划于一体(英伟达最新) May 09, 2024 pm 04:55 PM

写在前面&笔者的个人理解这篇论文致力于解决当前多模态大语言模型(MLLMs)在自动驾驶应用中存在的关键挑战,即将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆(AVs)需要针对3D环境做出准确的决策,这一扩展显得尤为重要。3D空间理解对于AV来说至关重要,因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。当前的多模态大语言模型(如LLaVA-1.5)通常仅能处理较低分辨率的图像输入(例如),这是由于视觉编码器的分辨率限制,LLM序列长度的限制。然而,自动驾驶应用需

一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题 一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题 May 08, 2024 am 11:40 AM

写在前面&笔者的个人理解近年来,自动驾驶因其在减轻驾驶员负担和提高驾驶安全方面的潜力而越来越受到关注。基于视觉的三维占用预测是一种新兴的感知任务,适用于具有成本效益且对自动驾驶安全全面调查的任务。尽管许多研究已经证明,与基于物体为中心的感知任务相比,3D占用预测工具具有更大的优势,但仍存在专门针对这一快速发展领域的综述。本文首先介绍了基于视觉的3D占用预测的背景,并讨论了这一任务中遇到的挑战。接下来,我们从特征增强、部署友好性和标签效率三个方面全面探讨了当前3D占用预测方法的现状和发展趋势。最后

迈向『闭环』| PlanAgent:基于MLLM的自动驾驶闭环规划新SOTA! 迈向『闭环』| PlanAgent:基于MLLM的自动驾驶闭环规划新SOTA! Jun 08, 2024 pm 09:30 PM

中科院自动化所深度强化学习团队联合理想汽车等提出了一种新的基于多模态大语言模型MLLM的自动驾驶闭环规划框架—PlanAgent。该方法以场景的鸟瞰图和基于图的文本提示为输入,利用多模态大语言模型的多模态理解和常识推理能力,进行从场景理解到横向和纵向运动指令生成的层次化推理,并进一步产生规划器所需的指令。在大规模且具有挑战性的nuPlan基准上对该方法进行了测试,实验表明PlanAgent在常规场景和长尾场景上都取得了最好(SOTA)性能。与常规大语言模型(LLM)方法相比,PlanAgent所

超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA) 超越BEVFusion!DifFUSER:扩散模型杀入自动驾驶多任务(BEV分割+检测双SOTA) Apr 22, 2024 pm 05:49 PM

写在前面&笔者的个人理解目前,随着自动驾驶技术的越发成熟以及自动驾驶感知任务需求的日益增多,工业界和学术界非常希望一个理想的感知算法模型,可以同时完成三维目标检测以及基于BEV空间的语义分割任务。对于一辆能够实现自动驾驶功能的车辆而言,其通常会配备环视相机传感器、激光雷达传感器以及毫米波雷达传感器来采集不同模态的数据信息。从而充分利用不同模态数据之间的互补优势,使得不同模态之间的数据补充优势,比如三维点云数据可以为3D目标检测任务提供信息,而彩色图像数据则可以为语义分割任务提供更加准确的信息。针

See all articles