为什么最近的论文都在追逐小的模型,如squeezeNet,mobileNet....模型的大小带来的好处有哪些?

虽然这些模型的参数少了,模型的大小也更小了,但是这些模型所占用的GPU显存却并没有减小,甚至更大(squeezeNet比AlexNet的显存就大了很多),通过牺牲显存来减小模型大小带来的最直观好处是什么?  求大神解惑。
已邀请:

xinmiao

赞同来自: moyan

追逐模型越来越“小”(如果专业一点说叫做追求模型更紧凑)这是必然的趋势,可以关注最近热的边缘计算概念。这是实际应用中的需求。一方面,降低模型的尺寸是为了存储上的便利(如果手机上一个app几百M那是不可接受的);另一方面,减少模型参数有利于计算更快速。单纯降低模型的存储容量并不是重点,降计算量才是。
一个通用的、模型容量很大的网络,在某些被规约的很好的具体任务上并不是必要的。理论上说,更少的模型参数可能带来更好的避免过拟合,但这一条从实践上来说并不一定总正确。
对于硬件实现来说就更重要了,你要知道在实际应用中,每降低1M的存储,每降低0.1W的功耗,对应的都是真金白银,企业对于性能与成本的苛求是永不停息的。
以上。

joshua_1988 - https://joshua19881228.github.io/

赞同来自:

个人感觉一味地减小模型尺寸是没有意义的,大家追求小模型还是因为想把DL应用到端上,比如手机、摄像头等其他嵌入式设备。端上的限制主要就是存储(内存)空间小、运算能力低、电量有限,因此小模型还是应该着重在如何降低运算量上,同时考虑降低对内存的需求。从我个人的经验来说,一般情况下很少遇到内存瓶颈,但是运算量极大程度上限制了应用的速度,因此我认为如何降低运算量,同时保证模型的性能才是正确的方向。

以上纯属个人经验而谈,各位大神轻拍

南七骄傲 - 90后IT男

赞同来自:

为什么squeezenet和mobilenet没有节省显存

要回复问题请先登录注册