SPP-Net的输入还是不懂

看了中科院计算所王博士的目标检测视频后,对SPP-Net的输入还是不懂?
如果 SPP-Net的输入是2K个窗口,这么大的数据,怎么才能降低计算量呢? 希望哪位同仁把整个过程说的详细些,不胜感激。
已邀请:

王斌_ICT - 研究领域:深度学习,目标检测

赞同来自: 尚庆东 GongGP Rigel deeprl caney bea_tree更多 »

SPP-Net做目标检测时候,输入是一张图像,以及这张图像的region proposal坐标(并不是crop后的图像!)。如果你输入的是2k个图像块(窗口),并且每个图像块提取特征,那么计算量非常巨大(R-CNN就是这么做的)。我们需要的到底是什么?我们需要的是每个窗口对应的特征,每个窗口本来就是图像的一部分,那么我们对整图提取一次特征,然后每个窗口的特征我们根据(a.窗口在原图的位置 b.整图特征)就可以获取到每个窗口的特征。 你可以直接看一下Fast R-CNN ROI层的实现(SPP-Net简化版)http://caffecn.cn/?/question/135

要回复问题请先登录注册