Faster R-CNN 提取锚点生成区域的方法是否存在不足之处??

Faster R-CNN在提取建议区域时,在conv5-3的feature map上滑动3*3的卷积窗口。该3*3的滑动窗口对应的感受野对于ZF网络和VGG16网络分别是171和228,但是却需要对后面不同大小的生成区域进行感知,其中最大的区域768*437远远超出了感受野的范围。如果说较小的生成区域(如70*92)还在滑动窗口感受野范围内的话,那滑动窗口提取的特征如何能对感受野范围外的区域具有较好的表征能力。作者在原文中给出的解释是:只要物体中心区域可见,即可猜出物体所在的大致区域。这种说法应该有一定的道理,但如果滑动窗口的感受野对生成区域能够有更高的覆盖率的话,这样提取的效果会不会更好一些。参考SSD的分层提取模式,各层上的滑动窗口感受野就基本和生产区域的大小匹配,感觉这种方式会更合理一些。
此问题困扰本人已久,希望得到懂行的朋友的指教点播,谢谢!!

捕获1.JPG


捕获2.JPG

 
已邀请:

薛云峰 - 工程问题找我

赞同来自: caney

你的理解没错,这确实需要进行精心的设计和调整分层,用尽量接近的感受野来选取框

joshua_1988 - https://joshua19881228.github.io/

赞同来自: caney

对SSD我也有类似的疑问,事实上SSD的作者在文中说SSD的算法并没有考虑感受野,而是设定了最小和最大的尺度,两者之间都是均匀分布的尺度

要回复问题请先登录注册