文章

快速了解一个网络:DETR, End-to-End Object Detection with Transformers

快速了解一个网络:DETR, End-to-End Object Detection with Transformers

以下内容偏向于记录个人学习过程及思考,请审慎阅读。

背景

现有目标检测器通常是通过“边界框”回归和“分类”预测两个任务组合完成,且需要后处理操作(NMS)进行重复框的去除。

核心思想

本文将目标检测任务看作“直接集合预测”任务,通过二分图匹配的算法进行预测框和GT框的关联,基于transformer的encoder-decoder架构进行任务学习。

Pipeline

detr-pipeline

其中,N个object queries是网络可学习的参数。

亿些细节

  • DETR是在decoder中直接并行解码预测N个框的位置和类别,N明显大于图中的目标数量,多出的部分填为“no object”
  • Bounding box loss,作者采用L1 loss + generalized IoU loss的方式
  • ablation实验显示FFN对于结果影响比较重要,且所有N个目标的FFN共用参数

进一步了解

原文和代码

https://arxiv.org/abs/2005.12872

https://github.com/facebookresearch/detr

参考资料

本文由作者按照 CC BY 4.0 进行授权