怎么理解mtcnn训练的输入及输出

mtcnn训练第一阶段PNet的输入,是原始图像?还是原始图片得到的图像金字塔中的各个图像?或者是在原始图片中随机画框截取出来的图像? conv4-1输出2个值,这两个值是代表上述三个图像中哪个的人脸及非人脸概率?conv4-2输出4个值,这4个值代表什么意思?第二阶段输入的是什么,和第一阶段的输出有什么关系?
已邀请:

beichen2012

赞同来自:

训练时:pnet的输入是12*12的图像,这个图像是从wider face 及 celeba中,根据box与ground truth的IoU比值,随机裁剪出来,并resize到12*12的,IoU的比值决定 它是正样还是负样本等;
 

要回复问题请先登录注册