[转载] BING: Binarized Normed Gradients for Objectness Estimation at 300fps_综合

这几天看到了Objectness这一课题，挺有意思的。程明明CVPR2014文章的结果效率与准确性均非常突出。

出处： http://www.cvchina.info/2014/02/25/14cvprbing/

BING: Binarized Normed Gradients for Objectness Estimation at 300fps. Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR, 2014. [Project page][pdf][bib]

亮点巨多：

在PASCAL VOC数据集上取得了State of the art的Detection Rate
比PAMI2012， PAMI 2013， IJCV 2013 的方法快了1000倍，测试速度达300个图像每秒！
计算一个window的objectness score仅需2个float乘法，一个float加法，十来个bitwise operation。
没有各种复杂的计算，算法代码100行以内。
在整个PASCAL VOC 2007数据集上，Training不需要几周，不需要几天，仅需20秒钟！
有望for free的加速几乎所有object detection方法。去年CVPR best paper，以及在VOC上跑出最好成绩的ICCV 2013 Oral paper, 在共同抱怨的generic object proposal的速度瓶颈完全解决了。应该最多再过一年，各种realtime，high performance的multi-object detection将迅速涌现。
我来牛津一年多了，第一次在组内reading group （http://www.robots.ox.ac.uk/~vgg/rg/）上听Prof. Andrew Zisserman （全世界唯一拿过3次Marr奖的教授，论文citaiton 6万多）在组内讨论中对一个paper给这么正面的评价，并在我作组内reading group报告当天安排自己的学生开始做后续工作。
由于这次只用了最最简单的feature （梯度绝对值），最简单的学习方法（Linear SVM）。应该非常容易进行扩展和改进。
我2011年发布Saliency region detection代码的时候，当时觉得会有比较多的后续工作（后来证明光我自己的论文就有400多次引用），但也没有这次这个topic这么让人激动！相信未来一段时间将有非常多的领域会产生深刻的变化。为了推动这一变化，算法已经与一个小时前共享了出来：C++代码 http://mmcheng.net/bing/

人去识别一个照片，没见过谁用sliding window的方式一个个仔细的判断。因此Objectness 和 Saliency机制很相关，我感觉用objectness应该是detection的正确机制。

关于Salient object detection，如果一个图像只生成一个saliency map的话，用单张图像搞Saliency map，发展空间已经不是特别大了，我11年投PAMI那篇在MSRA1000上做到了93%左右的FMeasure，之后没看过别的比我CVPR11论文中segmentation结果（F = 90%）更高的正确率。用多张图像，特别是从internet上随机download的图像，从中提取有用的Salient object，并自动剔除单张图像分析产生的错误，应该还有很多事情可做。具体可参考：http://mmcheng.net/gsal/

关于Objectness，CVPR14这个充其量只算开了个头。因为只用了最最弱的feature（梯度：相邻像素颜色相减的绝对值）和学习方法（LinearSVM）来刻画我对这个问题的observation。进一步对初步结果做分析，将1000个proposal降低到几百个，甚至几十个，并同时保持较高的recall，将会有很多工作可做。从1千降到几十，将是一个漫长的过程，估计需要上百篇paper的不懈努力才有可能实现。

要是在未来几年，能将proposal数目降低到个位数，将会深刻影响图像编辑领域，我们也可能可以直接通过语音命令在没有分类器存在的情况下发出控制命令，例如“把这个object给我变大…”。关于语音控制的semantic parsing和图像编辑，有兴趣的话可以参考：http://mmcheng.net/imagespirit/ 。这个paper接收后也会公布代码。