阿里达摩院突破自动驾驶技术难题:实现3D物体检测精度速度兼得

简介: 达摩院的研究人员提出一个通用、高性能的检测器,在自动驾驶领域最重要的测试集之一 KITTI的鸟瞰(BEV)数据集上,检测速度达到25FPS ,一举占据榜首。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

最新消息,阿里达摩院又有新的研究进展,这次在自动驾驶3D物体检测领域。

达摩院的研究人员提出一个通用、高性能的检测器,在自动驾驶领域最重要的测试集之一 KITTI的鸟瞰(BEV)数据集上,检测速度达到25FPS ,一举占据榜首,与排名第二的方案相比,减少了一半多,同时精度也远超其他的单阶段检测器。可以说首次实现3D物体检测精度与速度兼得。

image

达摩院研究团队表示:“检测器是自动驾驶系统的核心组件之一,但该领域一直缺少创新和突破,此次我们实现3D检测精读和速度的提升,将有助于提高自动驾驶系统的安全性。”

从实验结果来看,他们显然取得了良好进展,而且研究的主要完成人员(一作),还是一名达摩院的实习生。

同时,该研究也得到了同行们的认可,被计算机视觉领域顶级会议CVPR 2020收录。他们是如何做到的呢?我们借助阿里达摩院提供的解读,一一来看。

如何实现精度和速度兼得?

众所周知,与普通2D图像识别应用不同,自动驾驶系统对精度和速度的要求更高,不仅需要快速识别周围环境的物体,还要对物体在三维空间中的位置做精准定位。

仅靠传感器和算法模型,通常无法平衡视觉识别的精度和速度。因此,检测器成为提升自动驾驶系统安全性的一个关键因素。

image

经过多年研究,当前业界主流的单阶段检测器在检测速度上很好,但在检测精度却差强人意。

这就是达摩院研究的出发点:寻找一种能二者兼得的方法。

他们提出的思路是:将两阶段检测器中对特征进行细粒度刻画的思想,移植到单阶段检测中。

在他们的模型中,用于部署的检测器, 即推断网络, 由一个骨干网络和检测头组成。

骨干网络用3D的稀疏网络实现,用于提取含有高语义的体素特征。检测头将体素特征压缩成鸟瞰图表示,并在上面运行2D全卷积网络来预测3D物体框。

他们在训练中利用一个辅助网络将单阶段检测器中的体素特征,转化为点级特征并施加一定的监督信号。

在实现上,他们将卷积特征中的非零信号映射到原始的点云空间中, 然后在每个点上进行插值,来获取卷积特征的点级表示。使得卷积特征也具有结构感知能力,来提高检测精度。

image

而在做模型推断时,辅助网络并不参与计算(detached),保证单阶段检测器的检测效率。

另外,他们还提出一个工程上的改进:Part-sensitive Warping (PSWarp),用于处理单阶段检测器中存在的 “框-置信度-不匹配” 问题。

核心思路是:利用采样器, 用生成的采样网格在对应的局部敏感特征图上进行采样,生成对齐好的特征图。最终能反映置信度的特征图,是K个对齐好特征图的平均。

image

单阶段方法,能达到两阶段方法精度

阿里达摩院的研究人员,在KITTI数据集上评估了方法的有效性。下图(PR Curve)中,实线为两阶段方法, 虚线为单阶段方法。

image

可以看出,达摩院提出的单阶段方法(黑色)能够达到两阶段方法才能达到的精度。

下图展示了他们在KITTI 鸟瞰(BEV) 和 3D 测试集上的结果。

image

可以看出,他们提出的方法,可以在不增加额外计算量的情况下,达到25FPS 的检测速度,而且还能保持精度。具体的检测效果如下:

image

两位共同一作,都是达摩院研究实习生

研究论文,标题为“Structure Aware Single-Stage 3D Object Detection from Point Cloud”,共有5名研究人员参与,分别来自阿里达摩院和香港理工大学。

第一作者是Chenhang He,是阿里达摩院的研究实习生,正在香港理工大学读博,预计2022年毕业。

他的导师是达摩院高级研究员、香港理工大学电子计算学系讲座教授、IEEE Fellow张磊,也是这一研究的通讯作者。

另一位第一作者Hui Zeng,也是是阿里达摩院的研究实习生,同样是张磊的博士生,预计在今年毕业。

其他作者,分别是达摩院高级研究员、IEEE Fellow华先胜、达摩院资深算法专家黄建强等。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-03-19
本文作者: 乾明
本文来自:“51CTO”,了解相关信息可以关注“51CTO

相关文章
|
5月前
|
机器学习/深度学习 传感器 自动驾驶
未来之路:大模型技术在自动驾驶的应用与影响
本文深入分析了大模型技术在自动驾驶领域的应用和影响,万字长文,慢慢观看~ 文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。 接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制和预训练-微调范式。 文章还介绍了大模型在任务适配性、模型变革和应用前景方面的潜力。 在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。 最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策层面提供赋能,突出了其在该领域的重要性和影响力。
533 0
|
6月前
|
传感器 编解码 自动驾驶
自动驾驶汽车:理论和实践挑战
自动驾驶汽车:理论和实践挑战
72 0
|
10月前
|
机器学习/深度学习 人工智能 并行计算
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
102 0
|
11月前
|
编解码 算法 JavaScript
|
11月前
|
传感器 机器学习/深度学习 人工智能
受蝗虫启发!自动驾驶避险出现新思路
受蝗虫启发!自动驾驶避险出现新思路
|
11月前
|
机器学习/深度学习 存储 算法
清华IEEE论文:利用新型训练方法,帮自动驾驶决策摆脱「路侧干扰」
清华IEEE论文:利用新型训练方法,帮自动驾驶决策摆脱「路侧干扰」
|
11月前
|
机器学习/深度学习 自然语言处理 算法
华为诺亚Transformer后量化技术:效率百倍提升,视觉&NLP性能不减
华为诺亚Transformer后量化技术:效率百倍提升,视觉&NLP性能不减
178 0
|
机器学习/深度学习 人工智能 监控
深度学习3D人体姿态估计国内外研究现状及痛点
人体姿态估计是从图像或视频信息中获取人体各个关节部位具体位置的过程,目前已被广泛应用到人机交互、视频监控、虚拟现实等领域。基于彩色图像的人体姿态估计算法容易受到颜色、环境等因素的影响,而深度图像在人体着装、肤色和遮挡等影响下具有较好的鲁棒性,能够更好地适应复杂环境的挑战。
3322 0
|
数据采集 人工智能 自动驾驶
借力算法,海天瑞声驾驭自动驾驶“新引擎”
2022 年的 3 月,或将被写入自动驾驶史册——美国颁布无人驾驶法规,中国也许将从政策层面允许 L3 自动驾驶乘用车上路,国内首条支持自动驾驶的快速路通车运营…… 毫无疑问,自动驾驶已经逐渐从快速迭代迈入大规模落地阶段。在这个 “临门一脚” 的关键时刻,想要让汽车本身的算法做到处理更多、更复杂的场景,不可或缺的是海量的场景数据支撑。通过对话国内唯一 A 股上市数据服务商—海天瑞声,透视 AI 数据在助推自动驾驶实现的路上,所面临的机会与挑战。
209 0
借力算法,海天瑞声驾驭自动驾驶“新引擎”
|
机器学习/深度学习 人工智能 自然语言处理
认知智能堪比魔法:回顾2021的重大突破
随着人工智能解决方案越来越广泛的应用,仅仅在视觉、听觉、触觉等层次的感知,已经满足不了社会大众对于“真正智能”的期望。认知智能,被视为人工智能热潮能否进一步突破天花板,形成更大产业规模的关键技术。
2627 0
认知智能堪比魔法:回顾2021的重大突破