论文阅读

论文阅读

CaffeCN推荐阅读论文列表

论文阅读caffe 发表了文章 • 11 个评论 • 4685 次浏览 • 2016-01-18 11:46 • 来自相关话题

更新:
CaffeCN社区开辟了论文主题站,定期更新各领域最新的重要论文,http://paper.caffecn.cn/
欢迎各位到论文主题站推荐论文,如果您对某篇论文有疑惑,也欢迎您在各论文的主题下提问和讨论。
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
1.2 数学基础
K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.
 
1.3 收敛理论
Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.
 
2. 模型
2.1 CNN
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.

2.2 RNN
Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

3.应用
 
3.1 图像分类
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)
 
3.2 人脸识别
Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014 Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898 Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014 Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015

3.3 目标检测
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.

3.4 OCR
Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.

3.5 图像描述
Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.

 3.6 动作识别
Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.


================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================  查看全部
更新
CaffeCN社区开辟了论文主题站,定期更新各领域最新的重要论文,http://paper.caffecn.cn/
欢迎各位到论文主题站推荐论文,如果您对某篇论文有疑惑,也欢迎您在各论文的主题下提问和讨论。
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
  • Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.
  • Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.

1.2 数学基础
  • K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.

 
1.3 收敛理论
  • Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.
  • Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.
  • Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.

 
2. 模型
2.1 CNN
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.
  • Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  • Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.


2.2 RNN
  • Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.
  • Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.
  • Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.


3.应用
 
3.1 图像分类
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.
  • Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)
  • Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)

 
3.2 人脸识别
  • Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014
  •  Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898
  •  Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996
  • Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014
  • Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014
  •  Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015


3.3 目标检测
  • Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.
  • Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)
  • Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.
  • Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)
  • Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.


3.4 OCR
  • Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.


3.5 图像描述
  • Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.


 3.6 动作识别
  • Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.



================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================ 

DeconvNet语义分割求问:请问复现Learning Deconvolution Network for Semantic Segmentation这篇paper

回复

语义图像分割奥特曼最最爱小怪兽 发起了问题 • 1 人关注 • 0 个回复 • 90 次浏览 • 2017-08-04 15:10 • 来自相关话题

在正负样本非常不均衡的情况,对于weighted cross_entropy loss应该如何理解?

深度学习理论南七骄傲 回复了问题 • 2 人关注 • 3 个回复 • 910 次浏览 • 2017-08-03 13:10 • 来自相关话题

深度学习从基础到进阶_GAN视频教程免费下载地址

人脸识别加油呀哥们 回复了问题 • 10 人关注 • 7 个回复 • 813 次浏览 • 2017-06-10 16:44 • 来自相关话题

最近看Yolo这篇论文,对文章中这句理解不是很清楚?

目标识别joshua_1988 回复了问题 • 13 人关注 • 9 个回复 • 3799 次浏览 • 2017-06-09 11:38 • 来自相关话题

CaffeNet出自哪篇论文?

论文阅读alex68 回复了问题 • 1 人关注 • 1 个回复 • 440 次浏览 • 2017-04-06 23:59 • 来自相关话题

论文推荐 《Distilling the Knowledge in a Neural Network》

论文阅读佛仙魔 回复了问题 • 10 人关注 • 4 个回复 • 2361 次浏览 • 2017-03-21 14:23 • 来自相关话题

最近有什么好的目标检测的文章吗,求推荐

论文阅读玉清元始天尊 回复了问题 • 9 人关注 • 6 个回复 • 1526 次浏览 • 2017-03-16 13:14 • 来自相关话题

在一篇文章中看到关于鞍点和局部最小值问题的说法,不是很理解。

深度学习理论YoungMagicP 回复了问题 • 3 人关注 • 2 个回复 • 426 次浏览 • 2017-03-15 00:09 • 来自相关话题

关于局部对比归一化:Local contrast normalization

深度学习理论chenzhi1992 回复了问题 • 2 人关注 • 2 个回复 • 1959 次浏览 • 2016-12-07 17:45 • 来自相关话题

有人实现“Facial Landmark Detection by Deep Multi-task Learning”这篇文章吗?

人脸识别Evence 回复了问题 • 10 人关注 • 2 个回复 • 2084 次浏览 • 2016-11-28 11:01 • 来自相关话题

有哪些关于 行人属性 分类的论文?求推荐!

论文阅读Evence 回复了问题 • 3 人关注 • 2 个回复 • 734 次浏览 • 2016-11-18 11:48 • 来自相关话题

CVPR2016 有哪些值得关注的文章,求推荐!

深度学习理论辛淼 回复了问题 • 3 人关注 • 2 个回复 • 1522 次浏览 • 2016-08-01 15:07 • 来自相关话题

我最近在看Stan Z. Li的一篇Re-Identification的文章,发现找到特定文章的开源的代码很困难?

论文阅读naisubing 回复了问题 • 4 人关注 • 2 个回复 • 1051 次浏览 • 2016-06-29 17:03 • 来自相关话题

谷歌的一些Inception Model?

深度学习理论ricky 回复了问题 • 18 人关注 • 3 个回复 • 6579 次浏览 • 2016-05-28 10:04 • 来自相关话题

论文当中复现了网络,如何测试model得出识别准确率

论文阅读自然语言处理 回复了问题 • 3 人关注 • 1 个回复 • 1029 次浏览 • 2016-04-01 15:31 • 来自相关话题

CNN里面说的class是什么意思呢?

回复

深度学习理论bombless 发起了问题 • 1 人关注 • 0 个回复 • 732 次浏览 • 2016-03-15 17:27 • 来自相关话题

《DRAW: A Recurrent Neural Network For Image Generation》代码如何跑起来?

回复

深度学习应用如是Ouya 发起了问题 • 4 人关注 • 0 个回复 • 1130 次浏览 • 2016-03-13 10:29 • 来自相关话题

2015_Arxiv_Deep Residual Learning for Image Recognition

论文阅读disheng 发表了文章 • 3 个评论 • 6985 次浏览 • 2016-01-14 18:50 • 来自相关话题

    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。





图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 




图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。 查看全部
    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。

fig1.JPG

图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 
111111.jpg

图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。
条新动态, 点击查看
辛淼

辛淼 回答了问题 • 2017-01-18 13:34 • 6 个回复 不感兴趣

最近有什么好的目标检测的文章吗,求推荐

赞同来自:

鄙人维护的Awesome Caffe列表,欢迎补充https://github.com/MichaelXin/Awesome-Caffe
鄙人维护的Awesome Caffe列表,欢迎补充https://github.com/MichaelXin/Awesome-Caffe

谷歌的一些Inception Model?

深度学习理论ricky 回复了问题 • 18 人关注 • 3 个回复 • 6579 次浏览 • 2016-05-28 10:04 • 来自相关话题

CaffeCN推荐阅读论文列表

论文阅读caffe 发表了文章 • 11 个评论 • 4685 次浏览 • 2016-01-18 11:46 • 来自相关话题

更新:
CaffeCN社区开辟了论文主题站,定期更新各领域最新的重要论文,http://paper.caffecn.cn/
欢迎各位到论文主题站推荐论文,如果您对某篇论文有疑惑,也欢迎您在各论文的主题下提问和讨论。
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
1.2 数学基础
K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.
 
1.3 收敛理论
Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.
 
2. 模型
2.1 CNN
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.

2.2 RNN
Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

3.应用
 
3.1 图像分类
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)
 
3.2 人脸识别
Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014 Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898 Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014 Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015

3.3 目标检测
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.

3.4 OCR
Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.

3.5 图像描述
Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.

 3.6 动作识别
Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.


================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================  查看全部
更新
CaffeCN社区开辟了论文主题站,定期更新各领域最新的重要论文,http://paper.caffecn.cn/
欢迎各位到论文主题站推荐论文,如果您对某篇论文有疑惑,也欢迎您在各论文的主题下提问和讨论。
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
  • Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.
  • Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.

1.2 数学基础
  • K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.

 
1.3 收敛理论
  • Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.
  • Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.
  • Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.

 
2. 模型
2.1 CNN
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.
  • Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  • Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.


2.2 RNN
  • Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.
  • Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.
  • Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.


3.应用
 
3.1 图像分类
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.
  • Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)
  • Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)

 
3.2 人脸识别
  • Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014
  •  Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898
  •  Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996
  • Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014
  • Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014
  •  Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015


3.3 目标检测
  • Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.
  • Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)
  • Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.
  • Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)
  • Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.


3.4 OCR
  • Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.


3.5 图像描述
  • Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.


 3.6 动作识别
  • Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.



================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================ 

2015_Arxiv_Deep Residual Learning for Image Recognition

论文阅读disheng 发表了文章 • 3 个评论 • 6985 次浏览 • 2016-01-14 18:50 • 来自相关话题

    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。





图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 




图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。 查看全部
    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。

fig1.JPG

图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 
111111.jpg

图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。

DeconvNet语义分割求问:请问复现Learning Deconvolution Network for Semantic Segmentation这篇paper

回复

语义图像分割奥特曼最最爱小怪兽 发起了问题 • 1 人关注 • 0 个回复 • 90 次浏览 • 2017-08-04 15:10 • 来自相关话题

在正负样本非常不均衡的情况,对于weighted cross_entropy loss应该如何理解?

回复

深度学习理论南七骄傲 回复了问题 • 2 人关注 • 3 个回复 • 910 次浏览 • 2017-08-03 13:10 • 来自相关话题

深度学习从基础到进阶_GAN视频教程免费下载地址

回复

人脸识别加油呀哥们 回复了问题 • 10 人关注 • 7 个回复 • 813 次浏览 • 2017-06-10 16:44 • 来自相关话题

最近看Yolo这篇论文,对文章中这句理解不是很清楚?

回复

目标识别joshua_1988 回复了问题 • 13 人关注 • 9 个回复 • 3799 次浏览 • 2017-06-09 11:38 • 来自相关话题

CaffeNet出自哪篇论文?

回复

论文阅读alex68 回复了问题 • 1 人关注 • 1 个回复 • 440 次浏览 • 2017-04-06 23:59 • 来自相关话题

论文推荐 《Distilling the Knowledge in a Neural Network》

回复

论文阅读佛仙魔 回复了问题 • 10 人关注 • 4 个回复 • 2361 次浏览 • 2017-03-21 14:23 • 来自相关话题

最近有什么好的目标检测的文章吗,求推荐

回复

论文阅读玉清元始天尊 回复了问题 • 9 人关注 • 6 个回复 • 1526 次浏览 • 2017-03-16 13:14 • 来自相关话题

在一篇文章中看到关于鞍点和局部最小值问题的说法,不是很理解。

回复

深度学习理论YoungMagicP 回复了问题 • 3 人关注 • 2 个回复 • 426 次浏览 • 2017-03-15 00:09 • 来自相关话题

关于局部对比归一化:Local contrast normalization

回复

深度学习理论chenzhi1992 回复了问题 • 2 人关注 • 2 个回复 • 1959 次浏览 • 2016-12-07 17:45 • 来自相关话题

有人实现“Facial Landmark Detection by Deep Multi-task Learning”这篇文章吗?

回复

人脸识别Evence 回复了问题 • 10 人关注 • 2 个回复 • 2084 次浏览 • 2016-11-28 11:01 • 来自相关话题

有哪些关于 行人属性 分类的论文?求推荐!

回复

论文阅读Evence 回复了问题 • 3 人关注 • 2 个回复 • 734 次浏览 • 2016-11-18 11:48 • 来自相关话题

CVPR2016 有哪些值得关注的文章,求推荐!

回复

深度学习理论辛淼 回复了问题 • 3 人关注 • 2 个回复 • 1522 次浏览 • 2016-08-01 15:07 • 来自相关话题

我最近在看Stan Z. Li的一篇Re-Identification的文章,发现找到特定文章的开源的代码很困难?

回复

论文阅读naisubing 回复了问题 • 4 人关注 • 2 个回复 • 1051 次浏览 • 2016-06-29 17:03 • 来自相关话题

谷歌的一些Inception Model?

回复

深度学习理论ricky 回复了问题 • 18 人关注 • 3 个回复 • 6579 次浏览 • 2016-05-28 10:04 • 来自相关话题

论文当中复现了网络,如何测试model得出识别准确率

回复

论文阅读自然语言处理 回复了问题 • 3 人关注 • 1 个回复 • 1029 次浏览 • 2016-04-01 15:31 • 来自相关话题

CNN里面说的class是什么意思呢?

回复

深度学习理论bombless 发起了问题 • 1 人关注 • 0 个回复 • 732 次浏览 • 2016-03-15 17:27 • 来自相关话题

《DRAW: A Recurrent Neural Network For Image Generation》代码如何跑起来?

回复

深度学习应用如是Ouya 发起了问题 • 4 人关注 • 0 个回复 • 1130 次浏览 • 2016-03-13 10:29 • 来自相关话题

CaffeCN推荐阅读论文列表

论文阅读caffe 发表了文章 • 11 个评论 • 4685 次浏览 • 2016-01-18 11:46 • 来自相关话题

更新:
CaffeCN社区开辟了论文主题站,定期更新各领域最新的重要论文,http://paper.caffecn.cn/
欢迎各位到论文主题站推荐论文,如果您对某篇论文有疑惑,也欢迎您在各论文的主题下提问和讨论。
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.
1.2 数学基础
K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.
 
1.3 收敛理论
Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.
 
2. 模型
2.1 CNN
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.

2.2 RNN
Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.

3.应用
 
3.1 图像分类
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)
 
3.2 人脸识别
Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014 Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898 Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014 Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015

3.3 目标检测
Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.

3.4 OCR
Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.

3.5 图像描述
Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.

 3.6 动作识别
Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.


================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================  查看全部
更新
CaffeCN社区开辟了论文主题站,定期更新各领域最新的重要论文,http://paper.caffecn.cn/
欢迎各位到论文主题站推荐论文,如果您对某篇论文有疑惑,也欢迎您在各论文的主题下提问和讨论。
 
CaffeCN推荐阅读论文列表(持续更新中 20160131)

1.理论
1.1 综述
  • Lecun Y, Bengio Y, Hinton G. Deep learning.[J]. Nature, 2015, 521(7553):436-44.
  • Schmidhuber J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85-117.

1.2 数学基础
  • K. B. Petersen and M. S. Pedersen, “The matrix cookbook,” nov 2012, Version 20121115.

 
1.3 收敛理论
  • Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//International conference on artificial intelligence and statistics. 2010: 249-256.
  • Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167, 2015.
  • Neyshabur B, Salakhutdinov R R, Srebro N. Path-sgd: Path-normalized optimization in deep neural networks[C]//Advances in Neural Information Processing Systems. 2015: 2413-2421.

 
2. 模型
2.1 CNN
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • Szegedy C, Liu W, Jia Y, et al. Going Deeper With Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015: 1-9.
  • Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
  • Srivastava R K, Greff K, Schmidhuber J. Highway Networks[J]. arXiv preprint arXiv:1505.00387, 2015.


2.2 RNN
  • Graves A. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8):1735-1780.
  • Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(s 5–6):602-610.
  • Chung J, Gulcehre C, Cho K H, et al. Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J]. Eprint Arxiv, 2014.


3.应用
 
3.1 图像分类
  • Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
  • He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[J]. arXiv preprint arXiv:1512.03385, 2015.
  • Kontschieder P, Fiterau M, Criminisi A, et al. Deep Neural Decision Forests[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1467-1475.(ICCV2015 Marr Prize)
  • Joint Embeddings of Shapes and Images via CNN Image Purification ACM Transactions on Graphics (Proceeding of SIGGRAPH Asia 2015)

 
3.2 人脸识别
  • Taigman Y, Yang M, Ranzato M, Wolf L. Deepface: Closing the gap to human-level performance in face verification. In: Computer Vision and Pattern Recognition (CVPR). 2014
  •  Sun Y, Wang X, Tang X. Deep learning face representation from predicting 10,000 classes. In: Computer Vision and Pattern Recognition (CVPR). 2014, 1891–1898
  •  Sun Y, Chen Y, Wang X, Tang X. Deep learning face representation by joint identification-verification. In: Advances in Neural Information Processing Systems (NIPS). 2014, 1988–1996
  • Sun Y, Wang X, Tang X. Deeply learned face representations are sparse, selective, and robust. arXiv preprint arXiv:1412.1265, 2014
  • Yi D, Lei Z, Liao S, Li S Z. Learning face representation from scratch. arXiv preprint arXiv:1411.7923, 2014
  •  Schroff F, Kalenichenko D, Philbin J. Facenet: A unified embedding for face recognition and clustering. arXiv preprint arXiv:1503.03832, 2015


3.3 目标检测
  • Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems. 2015: 91-99.
  • Girshick R. Fast R-CNN[J]. arXiv preprint arXiv:1504.08083, 2015.(ICCV2015)
  • Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. IEEE, 2014: 580-587.
  • Hosang J, Benenson R, Dollár P, et al. What makes for effective detection proposals[J]. arXiv preprint arXiv:1502.05082, 2015.(TPAMI2015)
  • Yoo D, Park S, Lee J Y, et al. AttentionNet: Aggregating Weak Directions for Accurate Object Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 2659-2667.


3.4 OCR
  • Graves A, Schmidhuber J. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks.[J]. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. - ResearchGate, 2008:545-552.


3.5 图像描述
  • Donahue J, Hendricks L A, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]// Computer Vision and Pattern Recognition (CVPR), 2015 IEEE Conference on. IEEE, 2015.


 3.6 动作识别
  • Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems. 2014: 568-576.



================================================
说明:本列表由CaffeCN社区(caffecn.cn)答疑组共同整理,仅提供给CaffeCN社区使用,如需转载须注明转载来源。
================================================ 

2015_Arxiv_Deep Residual Learning for Image Recognition

论文阅读disheng 发表了文章 • 3 个评论 • 6985 次浏览 • 2016-01-14 18:50 • 来自相关话题

    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。





图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 




图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。 查看全部
    首先感谢 @辛淼 博士的邀请,末学在这里把阅读《Deep Residual Learning for Image Recognition》一文的心得和大家分享一下,做抛砖引玉之用,希望得到大家的广泛讨论。
    在具体介绍文章思想以前,先来看一下“深度残差学习”(Deep Residual Learning)的赫赫战功:MSRA凭借着这一利器在Imagenet比赛的识别、检测和定位三个任务、以及COCO比赛的检测和分割任务上都获得了第一名,这主要归功于残差学习的这一思想使得学习更深的网络成为可能,从而学习到更好的表达。
    那么什么是深度残差学习呢?
    很久以前人们就已经认识到更深的网络能够产生更好的数据表达,但是如何训练一个很深的网络却一直是一个困扰人们的问题,这主要是由于梯度消失或爆炸以及尺度不均匀的初始化造成的。围绕这一问题,人们提出了ReLU、Xavier、pReLU、batch normalization和path-SGD等一系列方法(详细内容参见社区第二次线下活动刘昕博士讲稿),但是本文作者何恺明等人却发现即使有这些方法,神经网络的训练仍然呈现了degradation的现象。所谓degradation现象,就是随着网络深度的增加,网络的性能反而下降,而且这种性能的下降并不是由前面所说的问题造成的。见图1,56层网络在训练误差和测试误差上都要比20层的网络大。

fig1.JPG

图1 [图片选自原论文,版权归原作者所有]

    这种现象是不合理的。假如目前有一个可以工作的很好的网络A,这时来了一个比它更深的网络B,只需要让B的前一部分与A完全相同,后一部分只实现一个恒等映射,这样B最起码能获得与A相同的性能,而不至于更差。深度残差学习的思想也由此而产生,既然B后面的部分完成的是恒等映射,何不在训练网络的时候加上这一先验,于是构造网络的时候加入了shortcut连接,即每层的输出不是传统神经网络当中输入的映射,而是映射和输入的叠加,如图2所示。
 
111111.jpg

图2 [图片选自原论文,版权归原作者所有]

    这就是深度残差学习的思想,当然在具体实现上还有一些细节,比如输入和输出的维度不同是如何处理的、文中所实现网络何以更深但参数却比VGG要少、网络的设计原则是什么,这些细节请大家阅读论文Sec.3.3,也欢迎大家进行讨论。
    最后谈一点自己关于这篇文章的体会:
    1. 在网络训练过程中,加入先验信息指导非常重要,合理的先验往往会取得非常好的效果。本文中的恒等映射便是一例,这里再举一个例子,Meina Kan老师等人的2014CVPR的Stacked Progressive Auto-Encoders (SPAE) for Face Recognition一文中在用深度神经网络做跨姿态的人脸识别问题时,加入了人脸姿态是渐变的过程这一先验信息,使得网络性能显著提升。
    2. 如果读过《Highway Network》一文,会发现深度残差学习是highway的一个特例,但这并不影响此文的贡献,能把一个很好的idea进行实现,取得不错的性能也是非常不易的。另外,此文在一定程度上给出了highway直观上的解释。
    3. 神经网络的研究,可以分为网络结构和训练机制两大部分,刘昕博士形象地将它们分别比喻为计算机的硬件和软件,现今的计算机软硬件之间的界限日益模糊,正如本文所提出的深度残差学习也是一样,从网络结构方面来理解相当于在传统的CNN之上加上了shortcut连接,从训练机制来理解,本文在训练的过程中加入了恒等映射这一先验信息,相当于提出了一种新的训练机制。
    4. 文中的Sec.4.2实验部分挑战了把极限,设计了一个超大规模(1202层)的网络,使用深度残差学习也可以使网络收敛,但性能不如110层的网络好,主要原因是数据量相对偏少,因此实际应用当中,我们需要在网络的规模与数据量之间综合考量。
    最后,感谢caffe社区给我们提供交流和学习的平台,使我们受益良多。
 
董震:北京理工大学在读博士生,研究兴趣为模式识别、机器学习和计算机视觉。