快速了解一个网络：Fast RCNN

发表于 2024/09/03 更新于 2025/04/16

作者 Yinghao Sun

3 分钟阅读

快速了解一个网络：Fast RCNN

以下内容偏向于记录个人学习过程及思考，请审慎阅读。

背景

RCNN不管是训练还是推理都太慢了。

后来提出的SPP-net解决了以上上面的最后1个问题

将原始图像的region proposals按照CNN结构映射到feature maps上，只用CNN对原始输入图像推理一遍，后续直接在提取的feature maps上做分类或检测

但是SPP-net还是没有解决上述前2个问题

end to end，做成一阶段训练，不需要额外存储feature

使用基于ImageNet训练的分类网络，将固定大小的最大池化层替换为ROI池化层，将最后的全连接层和softmax替换为两个并行的全连接层，分别加上softmax分类和bbox回归

并且，需要将输入变为2个，即图像 + region proposals

选择少图像 + 多proposals形式的mini batch方式训练，可以减少资源消耗，提升训练速度

分类损失 + 非背景类的bbox回归损失（使用smooth L1 loss）

检测任务需要多个proposals进入全连接层进行计算，成为了耗时瓶颈。

因此，本文采用多全连接层的加速方法：基于奇异值分解截断的方法

smooth L1 loss（TODO）

奇异值分解（SVD）（TODO）

本文由作者按照 CC BY 4.0 进行授权