ssd:single shot detector中的几个问题

最近阅读了目标检测论文ssd,同时也跑了相应的数据集。个人理解其主要的思想是使用多个feature map做融合,同时结合multi-scale和multi aspect-ratio 的default box设置提高检测的效果。另外使用卷积代替全连接层,达到加速的效果。但是具体到细节上,我还是有很多疑问:
  1. 在使用feature map的时候,论文中提到了将其划分为4*4,或者8*8的cell,同时一个cell对应a set of default boxes,在这里这个划分是如何产生的?需要作用到哪些feature map上?和scale以及aspect ratio是什么关系?这几个参数如何影响产生default box的数量的?
  2. 接着第一点,在文中给出的示例是7308个box per-class,这个7308是如何计算出来的?

已邀请:

penguin企 - 学习深度学习

赞同来自: caffe 南七骄傲 小小Z labsig

1、cell指feature map大小,box数量=feature map size * num_prior_per_location(见代码)
2、38*38*3+(19*19+10*10+5*5+3*3+1*1)*6
论文中fig.2

qinxunhui

赞同来自:

赞同楼上。如果想了解更详细的,参看源码prior_box_layer.cpp。

要回复问题请先登录注册