快速了解一个网络：Distant Vehicle Detection Using Radar and Vision

发表于 2025/01/26 更新于 2025/04/16

作者 Yinghao Sun

4 分钟阅读

以下内容偏向于记录个人学习过程及思考，请审慎阅读。

背景

基于camera的cnn系列目标检测网络对于小目标的检测效果较差（即对于远距离的目标检测效果较差）。

本文考虑通过radar的信息（尤其是动态目标的多普勒信息）来辅助远距离目标的检测。

核心思想

将radar的点云根据相机内外参反投到图像上，通过concatenation的方式融合，相当于给图像features增加2个channel

2个channel分别对应radar的位置信息和radar的多普勒频移信息。

远距离目标真值方面，通过对一个长焦镜头的图像用yolo网络进行目标检测来生成（2d detection）。

Pipeline

亿些细节

作者也使用的私有数据集，因为特殊的需求
- 1个长焦（辅助远距离真值生成），2个短焦（构成stereo camera模拟实际车辆传感器构型，也通过stereo visual odometry用作ego motion的估计），1个radar
- 其中长焦和其中1个短焦镜头尽可能的靠近以近似满足共用相机中心的假设，在不需要知道目标真实距离的情况下将长焦图像检测的uv近似反投到短焦图像uv，简化真值获取过程。
通过基于kitti数据集训练的yolo网络，在采集的数据集上产生伪标注结果当作真值
产生伪标注过程中，对于短焦图像的检测结果，如果和长焦检测结果iou大于0.5则弃用短焦镜头检测结果
在将radar点云反投图像时，反投结果采用了一个临近的圆形区域而非单个pixel，这样可以一定程度上增加radar点对训练结果的影响，也可以在一定程度上反应radar位置的不确定性。
因为camera采样频率（30hz）和radar采样频率（20hz）都很高，相邻帧几乎没有差别，所以作者做了进一步的下采样，采用camera和radar间delay尽可能小的帧 + 进一步下采样结果进行训练。
因为自采数据vehicle占了大部份，因此后文只focus vehicle部份的结果（估计是其他类别效果不佳）
检测框架使用SSD
- 因为SSD对于更小目标的检测效果较差，这里作者借鉴了Detecting traffic lights by single shot detection的思路，通过重复default boxes的方式来提升小目标检测效果。
作者提出了2个进一步的研究方向
1. 本文还是简单的将radar点云反投图像，作为图像来处理，没有很好的利用radar点云的稀疏特性。
2. 本文没有利用时序信息，作者认为时序信息对于目标检测有很好的作用，尤其是可以过滤radar的一些噪声等。

进一步了解

SSD
Detecting traffic lights by single shot detection

原文和代码

https://arxiv.org/abs/1901.10951

参考资料

无

Computer Vision

本文由作者按照 CC BY 4.0 进行授权