名词
inception module
问题
bounding box
bounding box是怎么预测出来的。因为在博客里看到的一直是直接拿bounding box跟ground truth进行比较。
每个cell提出两个bounding box,分成7*7=49个cell,所以总共98个box,和RCNN的2000个FRCN的300个相比,少的多。
YOLO是通过神经网络来预测出对应的bounding box。
OverFeat,神经网络定位物体。 FCN:允许不同大小的输入。 offset-pooling。
通过OverFeat的思想,前面是神经网络提取特征,后面有接回归层,回归出bounding box的坐标。
损失函数
- 对没有物体的栅格来说,其重要性远远不如有物体的栅格,但在损失函数中二者重要性如果一致,前者在梯度的贡献会淹没掉后者的贡献,虽然后者更有代表性。这会导致网络不稳定,乃至发散。
- 8维坐标和20维类别重要性也不一致
- 大小不同的bbox预测偏对结果的影响也不一致。用box的width和hegith平方代替原本的值。(??)
模块
NMS非极大值抑制
拓展阅读
YOLOv1论文理解:https://blog.csdn.net/hrsstudy/article/details/70305791
非常详细
YOLOV1和v2:https://www.cnblogs.com/fariver/p/7446921.html
https://www.cnblogs.com/makefile/p/YOLOv3.html
darknet源码学习 : https://www.cnblogs.com/llfctt/p/9037672.html
YOLO源码解析:https://blog.csdn.net/u014540717/article/category/6513159
github-darknet源码解析:https://github.com/hgpvision/darknet
图解YOLO:https://docs.google.com/presentation/d/1aeRvtKG21KHdD5lg6Hgyhx5rPq_ZOsGjG5rJ1HP7BbA/pub?start=false&loop=false&delayms=3000&slide=id.g137784ab86_4_2287
大佬博客:https://blog.csdn.net/hjimce
三种网络结构:http://blog.sina.com.cn/s/blog_4765fef80102x4ti.html
论文缺点
主要的错误类型是定位不准确。它boundingbox的定位方法是通过OverFeat产生bounding box坐标。
论文创新点
回归思想直接得到坐标。输入图片,站在全局的角度判断,把背景判断成物体的概率减半。