人脸关键点检测训练时Euclidean公式怎么理解?


caffe训练人脸关键点检测模型,假设每张图片上有15个关键点,这些关键点的坐标组成含30个元素的数组Arr1,到最后一个全连接层输出Arr2,Euclidean层的计算:
euclidean.jpg

, loss=MSE/2。公式中y^对应Arr1中的元素,y对应Arr2中的元素,n=30,这么理解可以吗?  我看源码中n是batch的大小,如果是这样的话,那y^和y分别对应什么?
 
已邀请:

joshua_1988 - https://joshua19881228.github.io/

赞同来自:

一般来说y^是预测值,y是ground truth,我们计算两者之间的距离,从而评价网络模型好不好。具体到你的问题,其实各个关键点都是独立存在的,因此一张图对应30个数,而一个batch就对应30*n个数,这些数单独计算欧氏距离就可以了

leedewdew

赞同来自:

n是单张图关键点的个数,贴图中MSE的公式计算单张图loss

要回复问题请先登录注册