caffe卷积层是如何实现对weight_diff的累加的?

后向传播中,用for循环依次处理一个batch中的每个数据,但是每次都调用caffe_gpu_gemm,后一个数据不会把前一个数据的weight_diff覆盖掉么?
已邀请:

孙琳钧

赞同来自: xinmiao alex68

后一个样本计算的weight_diff会被累加而不是覆盖

alex68 - 一般不扯淡~

赞同来自:

有意思的问题 这个应该涉及到cublas的内容 我觉得应该在做gemm之前会把数据置换出显存 纯瞎猜 期待别人解决

要回复问题请先登录注册