py-faster rcnn中rpn的3x3的滑框用卷积层来定义的是为什么?


QQ截图20160524200135.jpg

 
已邀请:

王斌_ICT - 研究领域:深度学习,目标检测

赞同来自: moyan 十点睡七点起 Webber caney bea_tree 烟消云散的猫 ersanqiao whytin更多 »

1.卷积操作本身就是一个卷积核(滑动窗口)在特征图(图像)的滑动操作。
2.这里滑动窗口的目的是为了取每个窗口的特征:
  对于VGG16,最后一个卷积层(conv5_3)的feature map个数为512,使用3x3的卷积核可以每张feature map上获取一个1x1的特征,总共是512的一个特征向量,这个向量也就是当前滑窗对应的特征。
3.为什么使用3x3的滑窗而不是2x2或者其他,个人理解:因为3x3在原图像的感受野是228x228, 对于尺度为128,256, 512的anchor设计来说,对于128x128的region proposal, 228x228是个很不错的选择(包含了上下文信息), 256尺度的跟228差不多, 512x512的只利用了中心的228x228的特征(虽然不是很好,但也凑合), 所以选择3x3的滑窗也算是一个技巧,目的是让这个滑动窗口的感受野跟region proposal的尽可能接近,这样去分类和做窗口回归才会更准.

jsjs0827 - 90后新手

赞同来自: aktiger ersanqiao

这个228*228是怎么计算得来的?

要回复问题请先登录注册