Yolo 学习了一些总结
普通的目标检测器,分为下面几部分:
1 主干:VGG16, ResNet, DarkNet53 等深度网络主干,
用于提取feature map(特征图)
2 头部: 分为一阶目标检测器 (Yolo, SSD, RetinaNet)
二阶目标检测器 (R-CNN, fast R-CNN, faster R-CNN)
用于最终输出,即预测类别,目标框(bounding box)
3 颈部:(顾名思义)位于主干、头部之间。
特征增强 , 特征提取、整合、加工。
如不同尺度的feature map 之间的融合,加权融合,跳跃连接
Yolov4总结了一些trick(技巧,策略):
1图像增强,
几何增强: 图像随机翻转,随机裁剪,拉伸,(仿射变换)。
色彩增强: gamma变换,改变对比度,RGB转换到HSV , HSV(色调,饱和度,亮度:调整)。
矩形裁剪: 在图像中随机裁剪出矩形区域,用0代替。
MIX-UP(混淆,混合),分两种:
1. 两个图像对应像素值,加权(按比例)相加,
2. 2个或4个图像 裁剪混合
2 注意力机制: 分为channel attention module
spatial attention module
参考论文:CBAM: Convolutional Block Attention Module
3 Self-Adversarial Training (自对抗训练)