一般的识别分类,网络要做多少层

Lenet9层
cifar-10 有14层
alexnet 23层
而识别手写数字的识别,看一些视频上,只用3层就行(输入层,输出层,一个隐含层。28x28的图片,隐含层只用100个节点,输出层10个节点,识别率已经到94%了)。
谁对网络层的应用有个直观的概念? 一般做图像分类,多少层合适?网络设计的一般思路是怎样的,谁能概括的说一说。
我说说我的理解,一般先卷积层,提取特征,再池化层降低分辨率,再来一个卷积层和池化层的组合,进一步提取特征。然后就是relu层进行非线性变换,再用内积层进行全链接,所以6层就够了。
 
另外再问一个细节问题,卷积层的输出个数设多少个合适? 我看lenet的是20个,这个度怎么把握?
已邀请:

陶潜水

赞同来自:

一般说起来是卷积层越多越好,即网络越深特征提取的越具有抽象的语义性,但是太深的网络不容易收敛,而且容易退化,目前最深的分类网络是残差ResNet152层,这是因为里面利用了了残差结构来避免网络退化。你说的6层其实就2层卷积,提取的特征不够抽象,不能应对复杂的分类情况。另外还要考虑内存消耗和耗时情况。
具体卷积层多少输出这些大多都是试出来的,尤其是LeNet、AlexNet这些早期的卷积网络。

要回复问题请先登录注册