训练Fitnet时训练数据预处理对Loss的收敛性影响?

训练Fitnet网络时,我使用的是MSELoss,但是我遇到一个比较奇怪的问题,如果我对数据的预处理方式是只减去均值(包括均值文件),不放缩,Loss起始值是1.0,并且能正常熟练。如果我的预处理方式是每个通道减去127.5,scale=0.0078125,Loss起始值是0.5,收敛及其慢,甚至不收敛。请问这是什么原因呢?能从数学角度分析吗?
已邀请:

要回复问题请先登录注册