数据集大小与模型参数的多少有没有什么关系

数据集多大时,才不容易出现过拟合?
已邀请:

ricky

赞同来自: bhj52099 coolwyj

我觉得过拟合和如下几个问题有关1. 不是绝对的大小,还要看数据分布,比如分类问题的每个类的分布是否足够丰富,是否能足以学到特征。
2. 验证集是否有效
3. 是否能用现有的模型进行初始化参数,以及能初始化到什么程度,从而减少参与训练的参数。
 
当然数据量很大时,比如上千万,上亿,也许以上几个问题就不那么突出了,那就可能避免了过拟合。

要回复问题请先登录注册