论文推荐 《Distilling the Knowledge in a Neural Network》

佛仙魔 回复了问题 • 7 人关注 • 4 个回复 • 1255 次浏览 • 4 天前 • 来自相关话题

YOLO 9000 K-means 如何生成Priors

回复

labsig 发起了问题 • 1 人关注 • 0 个回复 • 42 次浏览 • 4 天前 • 来自相关话题

最近有什么好的目标检测的文章吗,求推荐

玉清元始天尊 回复了问题 • 7 人关注 • 6 个回复 • 600 次浏览 • 2017-03-16 13:14 • 来自相关话题

ssd(single shot detector)的一个问题

辛淼 回复了问题 • 3 人关注 • 2 个回复 • 157 次浏览 • 2017-02-20 15:01 • 来自相关话题

YOLO训练集构造

uuuuu52066 回复了问题 • 3 人关注 • 2 个回复 • 541 次浏览 • 2016-12-21 11:03 • 来自相关话题

阅读YOLO这篇文章,对每个grid cell的Bounding Box不理解!

alex68 回复了问题 • 3 人关注 • 1 个回复 • 364 次浏览 • 2016-11-21 11:47 • 来自相关话题

有哪些关于 行人属性 分类的论文?求推荐!

Evence 回复了问题 • 3 人关注 • 2 个回复 • 448 次浏览 • 2016-11-18 11:48 • 来自相关话题

ssd:single shot detector中的几个问题

qinxunhui 回复了问题 • 7 人关注 • 2 个回复 • 1246 次浏览 • 2016-08-29 15:07 • 来自相关话题

GRBM模型

辛淼 回复了问题 • 2 人关注 • 1 个回复 • 299 次浏览 • 2016-08-29 11:27 • 来自相关话题

有哪些关于 人脸属性 识别的论文?求推荐!

Pongroc 回复了问题 • 4 人关注 • 1 个回复 • 737 次浏览 • 2016-08-25 11:33 • 来自相关话题

我最近在看Stan Z. Li的一篇Re-Identification的文章,发现找到特定文章的开源的代码很困难?

naisubing 回复了问题 • 4 人关注 • 2 个回复 • 733 次浏览 • 2016-06-29 17:03 • 来自相关话题

请问《深度学习:21天实战Caffe》这本书什么时候出版啊?

卜居2016 回复了问题 • 3 人关注 • 1 个回复 • 1601 次浏览 • 2016-06-25 11:25 • 来自相关话题

论文当中复现了网络,如何测试model得出识别准确率

自然语言处理 回复了问题 • 3 人关注 • 1 个回复 • 691 次浏览 • 2016-04-01 15:31 • 来自相关话题

关于R-CNN那篇论文,IoU overlap是什么意思啊?

王斌_ICT 回复了问题 • 4 人关注 • 1 个回复 • 1256 次浏览 • 2016-03-18 12:42 • 来自相关话题

谁有ladder network论文中提到的补充材料?

mur11 回复了问题 • 3 人关注 • 1 个回复 • 485 次浏览 • 2016-02-26 16:01 • 来自相关话题

CaffeCN推荐阅读论文列表 (持续更新20160131)

caffe 发表了文章 • 9 个评论 • 3901 次浏览 • 2016-01-18 11:46 • 来自相关话题

 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
1.2 数学基础
K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.
 
1.3 收敛理论
Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.
 
2. 模型
2.1 CNN
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.

2.2 RNN
Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

3.应用
 
3.1 图像分类
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)
 
3.2 人脸识别
Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014 Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898 Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014 Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015

3.3 目标检测
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.

3.4 OCR
Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.

3.5 图像描述
Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.

 3.6 动作识别
Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.


================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================  查看全部
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
  • Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.
  • Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.

1.2 数学基础
  • K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.

 
1.3 收敛理论
  • Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.
  • Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.
  • Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.

 
2. 模型
2.1 CNN
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.
  • Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  • Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.


2.2 RNN
  • Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.
  • Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.
  • Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.


3.应用
 
3.1 图像分类
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.
  • Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)
  • Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)

 
3.2 人脸识别
  • Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014
  •  Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898
  •  Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996
  • Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014
  • Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014
  •  Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015


3.3 目标检测
  • Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.
  • Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)
  • Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.
  • Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)
  • Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.


3.4 OCR
  • Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.


3.5 图像描述
  • Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.


 3.6 动作识别
  • Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.



================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================ 

2015_Arxiv_Deep Residual Learning for Image Recognition

disheng 发表了文章 • 3 个评论 • 5455 次浏览 • 2016-01-14 18:50 • 来自相关话题

    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。





图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 




图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。 查看全部
    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。

fig1.JPG

图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 
111111.jpg

图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。