YOLOv3、YOLOv4、YOLOv5_综合

Yolov3

Yolov4

输入端采用 Mosaic、CutMix数据增强、cmBN、SAT自对抗训练 
Backbone采用了CSPDarknet53、Mish激活函数、DropBlock正则化等方式
Neck中采用了SPP、FPN+PAN的结构
Prediction则采用CIOU_Loss、DIOU_nms操作

Yolov5

YOLOv5其实就是YOLOv4的工程化的版本。输入端：Mosaic数据增强、自适应锚框计算、自适应图片缩放
Backbone：Focus结构，CSP结构
Neck：FPN+PAN结构
Prediction：CIOU_Loss anchor: 采用 k 均值和遗传学习算法对自定义数据集进行分析，获得适合自定义数据集中对象边界框预测的预设锚定框。  开始会先计算Best Possible Recall (BPR) ,  再在kmean_anchors函数中进行k 均值和遗传学习算法更新anchors。 数据增强采用了马赛克数据增强，就是从train的数据集中选择四张图片，在一张大图上的一定范围随机选择中心点，在中心点的左上，左下，右上，右下放置一张图片。这样做在一定程度上增加了batch size，四合一图片吗。当然，四张图片上面的label也要做相应的更新；DropBlock机制。防止过拟合很常用的方法就是Dropout，即随机杀死一些神经元，DropBlock则是随机杀死一片区域的神经元。例如，之前是把狗狗图片的眼睛一个像素点删掉了，现在是整个眼睛都删掉了；Label Smoothing。让标签平滑一些，目的是让神经网络不那么自信。例如，softmax的结果：（1,0）->[1,0]*(1-0.1)+0.05=[0.95,0.05]；损失函数：边框回归：采用了CIoUObjectness（置信度损失）：采用了BCEWithLogitsLoss和CIoU分类损失：采用了交叉熵损失函数BCEWithLogitsLoss三种损失平衡：边框：Objectness：分类=0.05：1：0.5三个检测层的损失平衡是：4.0, 1.0, 0.4对应8,16,32的输出层