在正负样本非常不均衡的情况,对于weighted cross_entropy loss应该如何理解?

在MS-CNN(A Unified Multi-scale Deep ConvolutionalNeural Network for Fast Object Detection)中,作者为了解决正样本数量太少容易引起训练失衡的情况,在cross_entropy loss损失函数中加入了权重系数,形式如下:
QQ图片20170302151237.jpg

关于以上公式有些不理解:在正样本数量缺失的情况下,不是应该增大正样本的权重系数吗,可是按照作者的做法,加入权重系数之后,正负样本系数的倍数关系由之前的r变成了1([1/(1+r)(s+)]/[r/(1+r)(s-)=1]),正样本的权重系数反而变小了。想知道作者这样做是基于什么原理,有没有相关的资料介绍。。谢谢!!
 
 
 
已邀请:

南七骄傲 - 90后IT男

赞同来自: alex68 caney

建议楼主看online hard example mining,效果很赞,尤其是在imbalance比较严重的数据集。

xinmiao

赞同来自: caney

举个例子 正常样本时候S_+=2, S_-=2,两个系数是相等的;不正常的情况下,S_+=1, S_-=3,左边系数是1/4,右边系数是1/4.

南七骄傲 - 90后IT男

赞同来自: yulian99

@yulian99:我的理解是在结合Siamese进行难例挖掘需要自己构建一个hard example mining 层,然后根据两个样本差异评判哪些样本是难例对,然后进行反传

要回复问题请先登录注册