文章

快速了解一个网络:CenterFusion, Center-based Radar and Camera Fusion for 3D Object Detection

快速了解一个网络:CenterFusion, Center-based Radar and Camera Fusion for 3D Object Detection

以下内容偏向于记录个人学习过程及思考,非常规教学内容

背景

多传感器融合可以提高系统的鲁棒性和准确性,但同时为系统和算法设计带来了新的挑战。

前融合的方法对于传感器间的时序/空间对齐误差比较敏感;而后融合的方法又无法完全利用多传感器的感知能力。

因此本文提出一种middle fusion的融合算法。

核心思想

基于camera分支获得一些初步的3d检测框,再利用这些框关联相关的radar点云并产生radar features,进而将对应的image features和radar features concat起来对初步的3d检测框进行精调,并输出3d box、速度等属性。

Pipeline

center-fusion-pipeline

亿些细节

Radar Point Cloud

将radar检测当作ego系下的3d点,包含x,y,z,vx,vy共5种属性,其中速度是用ego速度补偿后得到的绝对速度。

对于每个场景,积累约过去0.25s的radar点云,约3帧。

Radar Frustum Association Mechanism

在middle fusion方法中,正确的关联非常关键。因此作者考虑以下关联思路:

center-fusion-frustum-association

并且将radar点延z方向延长为具有一定高度的pillar(见pipeline)

只考虑完全落入roi frustum区域的radar pillar,如区域内有多个radar pillar,只使用距离最近的那个。

Radar Feature Extraction

对于每个关联上image object的radar pillar,以image object的2d box中点为中心生成3个heat map,分别对应深度,vx,vy

如果2个heat map有交叠区域,则距离更近的heatmap覆盖距离较远的heatmap(类似于距离近的物体挡住距离远的物体)

产生的heat map和image features concat起来作为额外的channel (features)

Implementation Details

使用基于Deep Layer Aggregation (DLA)的预训练CenterNet作为backbone

训练过程中使用right-left flipping和random shifting作为数据增强手段

测试过程中使用flipping作为数据增强手段

pillar设置为[0.2m, 0.2m, 1.5m]

进一步了解

原文和代码

https://arxiv.org/abs/2011.04841

参考资料

本文由作者按照 CC BY 4.0 进行授权