torchvision Faster-RCNN ResNet-50 FPN代码解析（eval模式总体结构）_综合

总体结构

花了点时间把整个代码架构理了理，画了如下这张图：
在这里插入图片描述

主体部分分为这几大部分：

Transform，主要是对输入图像进行转换
Resnet-50，主要是特征提取
FPN，主要是构建特征金字塔给RPN提供输入特征
RPN，主要是产生region proposals
ROI，主要是检测object区域，各个区域的labels以及各个区域的scores

Transform

请看torchvision Faster-RCNN ResNet-50 FPN代码解析（图片转换和坐标）

Resnet-50

这里就不多做介绍，这里用的标准的Resnet-50，就不多做介绍了。

FPN

前面的libtorch学习笔记（17）- ResNet50 FPN以及如何应用于Faster-RCNN已经有详细介绍，请参考之。

RPN

首先请看RPN头部紫色部分，对应的代码中是：

class RegionProposalNetwork(torch.nn.Module):......def forward(self,images,       # type: ImageListfeatures,     # type: Dict[str, Tensor]targets=None  # type: Optional[List[Dict[str, Tensor]]]):......# RPN uses all feature maps that are availablefeatures = list(features.values())objectness, pred_bbox_deltas = self.head(features)......class RPNHead(nn.Module):......def __init__(self, in_channels, num_anchors):super(RPNHead, self).__init__()self.conv = nn.Conv2d(in_channels, in_channels, kernel_size=3, stride=1, padding=1)self.cls_logits = nn.Conv2d(in_channels, num_anchors, kernel_size=1, stride=1)self.bbox_pred = nn.Conv2d(in_channels, num_anchors * 4, kernel_size=1, stride=1)def forward(self, x):# type: (List[Tensor]) -> Tuple[List[Tensor], List[Tensor]]logits = []bbox_reg = []for feature in x:t = F.relu(self.conv(feature))logits.append(self.cls_logits(t))bbox_reg.append(self.bbox_pred(t))return logits, bbox_reg

这里先对5个特征图进行3x3的卷积处理，输入和输出的channel都是256，这里主要是对特征进行进一步提取以便于产生proposals。然后再对这些输出，同时进行两个1x1的卷积处理：

Objectness，用于表明每点在某层特征图上对应的anchor是否在一个object的可能性张量
pred_bbox_deltas，用于表明每点在某层特征图上对应的anchor距离中心点各个方向的偏移的张量
这一点是和标准的Faster-RCNN提到的是不一样的，标准论文中每个点取9个不同的anchors，这里是5个特征层，每层每点取3个anchor，总共取15个anchor，具体参考前面文章libtorch学习笔记（17）- ResNet50 FPN以及如何应用于Faster-RCNN。这也是为什么cls_logits这个1x1卷积层输出为3（3 anchor/point in one level * 1 (foreground possibility)），而bbox_pred则是12（3 anchor/point in one level * 4 (4 offset/box)）。

然后再看anchor_generator，这个模块主要是在每层特征图上产生3个anchors。
最后卷积层对每层特征图进行处理后进入concat_box_prediction_layers函数进行拼接，
在这里插入图片描述
最后得到的box_cls变成了这样的layout，box_regression也是按照这个顺序排列的：

box_coder.decode在这里的作用把产生的anchor和box_regression结合产生
$widthanchor=xanchor_bottom_right?xanchor_top_leftheightanchor=yanchor_bottom_right?yanchor_top_leftcenter_x=xanchor_top_left+widthanchor/2.0center_y=yanchor_top_left+heightanchor/2.0dx,dy,dw,dh=box_regressionpred_centerx=dx?widthanchor+center_xpred_centery=dy?heightanchor+center_ypred_w=edw?widthanchorpred_h=edh?heightanchorpred_box_xtop_left=pred_centerx?predw/2pred_box_ytop_left=pred_centery?predh/2pred_box_xbottom_right=pred_centerx+predw/2pred_box_ybottom_right=pred_centerx+predh/2\begin{aligned} width_{anchor} &= x_{anchor\_bottom\_right} - x_{anchor\_top\_left}\\ height_{anchor} &= y_{anchor\_bottom\_right} - y_{anchor\_top\_left}\\ center\_x &= x_{anchor\_top\_left} + width_{anchor}/2.0\\ center\_y &= y_{anchor\_top\_left} + height_{anchor}/2.0\\ d_x, d_y, d_w, d_h &= box\_regression\\ pred\_center_x &= d_x*width_{anchor} + center\_x\\ pred\_center_y &= d_y*height_{anchor} + center\_y\\ pred\_w &= e^{d_w}*width_{anchor}\\ pred\_h &= e^{d_h}*height_{anchor}\\ pred\_box\_x_{top\_left} &= pred\_center_x - pred_w/2\\ pred\_box\_y_{top\_left} &= pred\_center_y - pred_h/2\\ pred\_box\_x_{bottom\_right} &= pred\_center_x + pred_w/2\\ pred\_box\_y_{bottom\_right} &= pred\_center_x + pred_h/2\\ \end{aligned}$
这些在R-CNN论文中已经由详细描述，而且前面的笔记也已经做了详细描述，这里就不做赘述。
最后RPN网络通过filter_proposals选出1000个proposals。

ROI

ROI对输入的1000个proposal进行检测，根据设定的阀值进行选择，最终输出满足阀值的检测结果，包括分数（Scores），标签（Labels）和区域（Boxes）。具体过程在后面的笔记中会做进一步解释。

笔记写得不易，觉得有点干货的，望点个赞！