自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式

机器之心发布
机器之心编辑部

鉴智机器人的下一代纯视觉自动驾驶 3D 目标检测框架 BEVDet , 为解决视觉为主自动驾驶解决方案中视觉雷达、4D 感知、实时局部地图等关键问题提供了更多可能性 。
日前 , 在自动驾驶权威评测集 nuScenes 上 , 鉴智机器人凭借提出的纯视觉自动驾驶 3D 感知新范式 BEVDet , 以绝对优势获得纯视觉 3D 目标检测世界第一的成绩 。 BEVDet 是首个公开的同时兼具高性能、扩展性和实用性的 BEV 空间 3D 感知范式 , 以 BEVDet 为核心的系列技术将有希望解决视觉为主自动驾驶解决方案中视觉雷达、4D 感知、实时局部地图等关键问题 , 未来将应用于鉴智机器人以视觉雷达为核心的高级别自动驾驶等产品和解决方案中 , 为自动驾驶的大规模量产发挥关键的作用 。
自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
文章图片

BEVDet技术报告链接:https://arxiv.org/abs/2112.11790
nuScenes 数据集是自动驾驶领域使用最广泛的公开数据集之一 , 也是目前最权威的自动驾驶纯视觉 3D 目标检测评测集 。 在传感器方面 , nuScenes 一共配置了 6 个相机、1 个 LiDAR、5 个 RADAR , 值得注意的是 , 和 KITTI 和 Waymo 等仅提供部分视角的数据集不同 , nuScenes 提供了 360 度的相机视野 , 可以对周围环境进行全方位的感知 。 数据方面 , nuScenes 提供了包含二维、三维物体标注、点云分割、高精地图等丰富的标注信息 , 共包含 1000 个场景、140 万帧图像、39 万帧激光雷达点云数据、23 个物体类别、140 万个三维标注框 , 数据规模和难度远超自动驾驶数据集 KITTI 。 此前参与 nuScenes 纯视觉 3D 目标检测评测的厂商包括丰田研究院(TRI)、华为、理想汽车、商汤科技、MIT、清华大学、香港中文大学、CMU、加州大学伯克利分校等国内外知名企业和研究机构 。
【自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式】自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
文章图片

自动驾驶权威评测世界第一,鉴智机器人推出纯视觉3D感知新范式
文章图片

图 1:鉴智机器人提出的 BEVDet 在纯视觉 3D 目标检测赛道以绝对优势位列榜首(包括不加额外数据和加上额外数据两种评测模式)
高级别自动驾驶需要时刻对周围的环境进行感知以进行决策规划 , 而基于纯视觉输入进行 3D 空间中的目标检测是其中最具挑战的任务之一 。 由 2D 图像感知 3D 空间的目标 , 是利用低维度的输入预测高维度信息 , 维度缺失使得任务的难度远大于 2D 目标检测 , 需要设计合理的范式充分利用输入图像信息对高维度信息进行建模推理 。 目前业界基于纯视觉的 3D 感知框架 , 主要在图像空间进行目标检测 。 此类范式不仅依赖极高的算力资源 , 另外也无法与语义分割等任务进行并行推理 , 可扩展性较差 。
针对该问题 , 鉴智机器人提出了下一代纯视觉自动驾驶 3D 目标检测框架 BEVDet 。 BEVDet 遵循模块化设计的理念 , 包含以下四个分工明确的模块:图像编码模块用于在二维图像空间提取高纬度的特征;视角变换模块用于把图像空间的特征转换到鸟瞰视角空间(Bird-Eye-View, BEV)的特征;鸟瞰视角的编码模块用于在鸟瞰视角下进一步提取特征;以及一个三维目标预测模块(Head)用于在鸟瞰视角空间对三维目标的定位、尺度、朝向、速度和类别的预测 。 BEVDet 通过上述的四个模块简洁的解决纯视觉自动驾驶 3D 目标检测的问题 。

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。