php网站建设模板下载,郴州新网交友,广州制作网站服务,室内设计网站建设卷积神经网络在实际训练过程中#xff0c;不可避免会遇到一个问题#xff1a;随着网络层数的增加#xff0c;模型会发生退化。
换句话说#xff0c;并不是网络层数越多越好#xff0c;为什么会这样#xff1f; 不是说网络越深#xff0c;提取的特征越多#xff…卷积神经网络在实际训练过程中不可避免会遇到一个问题随着网络层数的增加模型会发生退化。
换句话说并不是网络层数越多越好为什么会这样 不是说网络越深提取的特征越多网络的表达能力会更好吗 要理解这个问题需要对网络的反向传播算法有深入的理解。 在反向传播的过程中因为链式法则的缘故激活函数会存在连乘效应非线性的激活函数在连乘过程中会最终趋近于0从而产生梯度消失的问题。 我们可以选择线性激活函数比如ReLu以及正则化来缓解梯度消失的问题但是并不能从根本解决问题。因为在深层网络的反向传播过程中网络会逐渐饱和在权重更新值极小的情况下继续增加网络深度反而会增加Loss, 这一点是由经验得来。 所以我们可以有一种猜测 深层网络中 网络可能已经在中间某一层学习到最优解只要能够在后续的隐藏层什么都不学透明传输到输入层就能解决Loss增加的问题。 这个就是恒等映射学习到最优解后激活函数yx就什么都不做把输入原样输出。 这就是残差网络的实质。 那个skip connection跳跃连接实际就是恒等映射的叠加。