在训练的时候每一类的图片数量不一致会影响结果么?

最近在制作数据集,但是由于每一类的图片数量不一致,就想问一下在训练的时候,每一类的图片数量不一致对最后的训练结果会影响么?如果会影响的话有多大?
我的数据集最多的一类1000张图片,最少的一类500张图片。这样两倍的差距担心做出来之后训练会有影响。
已邀请:

Banggui02

赞同来自: grubby

你这种情况一般是不会有什么影响的,顶多因为数据量不大,而导致训练效果不是很理想。但是如果不同类之间样本数量如果相差太大,比如像1:20,1:30,或者相差更大的情况时,这时就会有影响,这时候样本数量小的类别,可能会被样本数量多的类别给过拟合了。此时就涉及到不同类别间,样本不均衡的问题,解决的办法有,1.往数据量小的类别中增加数据样本,2.适当减少数据样本多的类别中的样本,3.方法1和方法2同时使用。总之就是想办法让原本类别中样本数量相差较大的情况变得相差不大。

bonerkiller - buptldy.github.io

赞同来自:

应该影响不大,主要还是看你不同类图片之间数据特征的差别,而且看你的数据最多的才1000张,肯定只能用finetune来训练,所以影响应该就更小了

cooker

赞同来自:

图片少的缺点是特征提取不充分,训练集和测试集的accuracy会低一些。

tron1992

赞同来自:

1:2 或者1:3也不是很有必要去做,但是如果比例差距很大 就要做frequency balance

要回复问题请先登录注册