MTCNN输入和输出怎么理解?

我认为P-Net的输入是从wider face中根据ground truth随机取的框截下来的图,然后resize成12*12*3作为P-Net的输入,P-Net输出的bounding box应该是对应原图大小的,根据face classification和bounding box regression方法和NMS方法去掉一些没用的框,然后根据剩下的框在原图中截出来,resize成24*24作为R-Net的输入,但不知道图像金字塔在P-Net之前做的把原图压缩成各种大小的,对P-Net有什么作用吗?
已邀请:

要回复问题请先登录注册