mtcnn多层模型级联的输入图像问题

关于第二层、第三层的输入问题:
 
以 第二层为例,第二层的输入图像 是不是第一层输出的那些 boxes? 如果是的话,第一层的输入图像就已经很小了(12*12),那么得到的box 应该就更小了。而且第二层是24*24,那么将box resize到24*24,是不是 就是一张非常模糊的图片了?这样的话,应该提取不出啥信息了呀? 这个地方不是很理解。希望得到解答。
已邀请:

littleheadache

赞同来自: caffe fcj2113

这个实验我有做,第一层是全卷积层,输入的图像并不一定是12*12,全卷积层可以接受任意大小的图像,12*12是划窗的大小,输出的是在原图上的位置,在第二层之前在原图上将这部分图像截取出来,resize到24*24来判断。你可以将第一层的结果可视化成图片看一下就能够理解。
这两天才看的代码 其实应该是第一层得到的box最小就是12*12 而且box的尺寸位置是相对于原始图片 个人理解相当于对原始图片进行resize以后 进行12*12,stride=2的卷积操作 最后得到的每一个卷积区域是否是人脸区域 resize这个操作很妙就是不知道训练的时候是个什么样子 不同尺度的输入最后的loss怎么操作 label的对应

wjxiz1992

赞同来自:

any help ?

要回复问题请先登录注册