DETR :End-to-End Object Detection with Transformers
摘要
提出了将目标检测视作预测问题的方法
将检测pipeline流水化
bipartite matching loss
与faster rcnn在准确率和速度上相当
引言
将端到端的思想引入
transformer明确两两输入的关系,适用于删除重复预测
工作:
- 训练端到端损失函数双向匹配predicted和ground-truth :matching loss function
- 使用并行decoding连接双向匹配loss和transformers
- DETR在大物体上表现得更好,小物体上表现更差
结论
优点
- 基于transformer和matching loss function提出了DETR
- 与faster-cnn在结果上有可比性,在大物体识别上更加准确
- 便于执行,结构灵活
不足
训练、优化,小物体识别
相关工作
-
Set Prediction
基本方法存在相邻proposal重复的问题,一般采用非极大值抑制的方法
->采用全局推断信息推测
对于一组prediction,它们的loss function应具有不变性
-
Transformers and Parallel Decoding
-
Object detection
模型
-
Object detection set prediction loss
DETR一次做出N个推测,假设N大于被检物体的数量,则最小的损失为:
其中的L_match为
然后计算训练的loss:
-
DETR architecture
分为三部分:CNN提取特征,transformer,FFN。可移植