cuDNN库bug:训练时强制关机重启

我在之前的提问中使用GPU训练SSD强制关机重启问题阐述了这个问题的表象:使用caffe训练模型,在训练过程中强制重启。后来分析,这个问题应该是一个runtime error,注释掉Makefile.config中的USE_CUDNN后编译运行,不会出现这个bug。所以问题应该是cudnn的bug。
我的个人PC配置:CPU i5-6600K,显卡maxwell架构Titan X。系统Linux 16.04,CUDA 8.0(注:CUDA 7.5和CUDA 8.0都会遇到上述问题)。目前使用cudann V5, V5.1,都会有上述问题。
请问有什么解决方案?
 
已邀请:

卜居2016 - 《深度学习:21天实战Caffe》作者,就职于阿里云计算有限公司。

赞同来自: Solomon

cuda8.0 要用 cudnn 5.1.5,查下小版本号(cudnn.h 中有宏 CUDNN_VERSION,lib 看是不是最终指向 libcudnn.so.5.1.5)

alex68 - 一般不扯淡~

赞同来自:

cuda7 7.5 cudnnV4 V5都用过 没遇到过这种问题 怀疑是驱动的问题 

要回复问题请先登录注册