苏州知名高端网站建设机构,网站建设周记300字,seo网站建设刘贺稳营销专家a,泉州网站建设 推广各种激活函数总结 目录一、sigmoid二、tanh三、ReLU系列1.原始ReLU2.ReLU改进#xff1a;Leaky ReLU四、swish五、GeLU一、sigmoid 优点#xff1a; 1.可以将任意范围的输出映射到 …各种激活函数总结
目录一、sigmoid二、tanh三、ReLU系列1.原始ReLU2.ReLU改进Leaky ReLU四、swish五、GeLU一、sigmoid 优点 1.可以将任意范围的输出映射到 (0, 1) 范围内表示它对每个神经元的输出进行了归一化适合用于将概率作为输出的模型。 2.易于求导 缺点 1.计算量大 2.Sigmoid导数取值范围是[0, 0.25]且当x过大或过小时sigmoid函数的导数接近于0由于神经网络反向传播时的“链式反应”容易造成梯度消失难以更新网路参数。高层网络的误差相对第一层卷积的参数的梯度将是一个非常小的值这就是所谓的“梯度消失”。 3.Sigmoid的输出不是0均值即zero-centered这会导致后一层的神经元将得到上一层输出的非0均值的信号作为输入随着网络的加深会改变数据的原始分布。 二、tanh 优点: 1.tanh的输出范围时(-1, 1)解决了sigmoid不是0均值输出问题 2.在靠近0处的导数值较sigmoid更大即神经网络的收敛速度相对于sigmoid更快 3.在一般的分类问题中可将tanh用于隐藏层sigmoid 函数用于输出层。 缺点 1.计算量大 2.tanh导数范围在(0, 1)之间相比sigmoid导数的范围(0, 0.25)梯度消失问题会得到缓解但仍然存在。 三、ReLU系列
1.原始ReLU 优点 1.计算速度更快 2.ReLU是非线性函数所谓非线性就是一阶导数不为常数对ReLU求导在输入值分别为正和为负的情况下导数是不同的即ReLU的导数不是常数所以ReLU是非线性的只是不同于sigmoid和tanhReLU的非线性不是光滑的 2.梯度只有 0, 1 两个常量有效地解决梯度消失的问题。 3.ReLU的单侧抑制当ReLU的输入x为负时ReLU输出为0提供了网络的稀疏表达能力。深度学习是根据大批量样本数据从错综复杂的数据关系中找到关键信息。换句话说就是把密集矩阵转化为稀疏矩阵去除噪音保留数据的关键信息这样的模型就有了鲁棒性。ReLU将x0的输出置为0就是一个去噪音稀疏矩阵的过程。而且在训练过程中这种稀疏性是动态调节的网络会自动调整稀疏比例保证矩阵具备最优的关键特征。 缺点 1.ReLU 函数不是zero-centered输出。 2.训练过程中会导致神经元死亡的问题即ReLU 强制将0的输入置为0屏蔽该特征导致网络的部分神经元处于无法更新的状态这种现象称为死亡 ReLU 问题 Dying ReLU Problem 3.虽然采用ReLU在“链式反应”中不会出现梯度消失但梯度下降的幅值就完全取决于权值的乘积这样可能会出现梯度爆炸问题。 可以通过以下两种思路解决这类问题一是控制权值的大小让权值在01范围内二是做梯度裁剪控制梯度下降强度如ReLU(x)min(6, max(0,x))。 2.ReLU改进Leaky ReLU 优点 1.解决了ReLU的神经元死亡问题。Leaky ReLU中引入了超参数一般设置为0.01。在反向传播过程中对于Leaky ReLU的输入小于零的情况也可以计算得到一个梯度(而不是像ReLU一样值为0)。 缺点 1.相较于ReLU神经网络的稀疏性要差一些 2.引入了额外的超参数。 四、swish 优点 1.Swish是通过NAS搜索得到的其取值范围是[-0.278, ∞)且平滑、非单调 2.Swish 在深层模型上的效果优于 ReLU。例如仅仅使用 Swish 单元替换 ReLU 就能把 Mobile NASNetA 在 ImageNet 上的 top-1 分类准确率提高 0.9%Inception-ResNet-v 的分类准确率提高 0.6%。 缺点 1.计算量大 五、GeLU erf为高斯误差函数: 优点: 受 Dropout、ReLU 等机制的影响希望将神经网络中不重要的激活信息置为零。可以理解为对于输入的值我们根据它的情况乘上 1 或 0。更「数学」一点的描述是对于每一个输入 x其服从于标准正态分布N(0, 1)它会乘上一个伯努利分布Bernoulli(Φ(x))其中Φ(x) P(X ≤ x)。随着 x 的降低它被归零的概率会升高。对于 ReLU来说这个界限就是 0输入小于零就会被归零。这一类激活函数不仅保留了概率性同时也保留了对输入的依赖性。 我们经常希望神经网络具有确定性决策这种想法催生了 GELU 激活函数的诞生。这种函数的非线性希望对输入 x上的随机正则化项做一个转换具体来说可以表示为Φ(x)×1×x(1−Φ(x))×0×xxΦ(x)Φ(x) × 1 × x (1 − Φ(x)) × 0 × x xΦ(x)Φ(x)×1×x(1−Φ(x))×0×xxΦ(x)。我们可以理解为对于一部分Φ(x)它直接乘以输入 x而对于另一部分 (1 −Φ(x))它们需要归零。不太严格地说上面这个表达式可以按当前输入 x 比其它输入大多少来缩放 x。GeLU取值范围(-0.17,∞)平滑、非单调似乎是 NLP 领域的当前最佳尤其在 Transformer 模型中表现最好被GPT-2、BERT、RoBERTa、ALBERT 等NLP模型所采用 缺点: 计算量大通常采用GeLU的近似式来代替原式计算源论文给出了两个近似 参考文献 https://zhuanlan.zhihu.com/p/450361606 文章转载自: http://www.morning.bqmdl.cn.gov.cn.bqmdl.cn http://www.morning.qhmql.cn.gov.cn.qhmql.cn http://www.morning.kflbf.cn.gov.cn.kflbf.cn http://www.morning.fbbmg.cn.gov.cn.fbbmg.cn http://www.morning.htpjl.cn.gov.cn.htpjl.cn http://www.morning.bkwd.cn.gov.cn.bkwd.cn http://www.morning.ahlart.com.gov.cn.ahlart.com http://www.morning.klwxh.cn.gov.cn.klwxh.cn http://www.morning.rkjz.cn.gov.cn.rkjz.cn http://www.morning.ycpnm.cn.gov.cn.ycpnm.cn http://www.morning.dmzmy.cn.gov.cn.dmzmy.cn http://www.morning.gnbfj.cn.gov.cn.gnbfj.cn http://www.morning.kryxk.cn.gov.cn.kryxk.cn http://www.morning.ryspp.cn.gov.cn.ryspp.cn http://www.morning.qkdcb.cn.gov.cn.qkdcb.cn http://www.morning.rbhcx.cn.gov.cn.rbhcx.cn http://www.morning.xpqsk.cn.gov.cn.xpqsk.cn http://www.morning.dmrjx.cn.gov.cn.dmrjx.cn http://www.morning.qqnh.cn.gov.cn.qqnh.cn http://www.morning.dktyc.cn.gov.cn.dktyc.cn http://www.morning.ygth.cn.gov.cn.ygth.cn http://www.morning.qfgwx.cn.gov.cn.qfgwx.cn http://www.morning.mdpkf.cn.gov.cn.mdpkf.cn http://www.morning.jfnlj.cn.gov.cn.jfnlj.cn http://www.morning.stflb.cn.gov.cn.stflb.cn http://www.morning.nqrfd.cn.gov.cn.nqrfd.cn http://www.morning.xsjfk.cn.gov.cn.xsjfk.cn http://www.morning.csnch.cn.gov.cn.csnch.cn http://www.morning.nmhpq.cn.gov.cn.nmhpq.cn http://www.morning.yptwn.cn.gov.cn.yptwn.cn http://www.morning.xtxp.cn.gov.cn.xtxp.cn http://www.morning.xrrjb.cn.gov.cn.xrrjb.cn http://www.morning.rqsr.cn.gov.cn.rqsr.cn http://www.morning.nsncq.cn.gov.cn.nsncq.cn http://www.morning.yrjkz.cn.gov.cn.yrjkz.cn http://www.morning.dongyinet.cn.gov.cn.dongyinet.cn http://www.morning.sqyjh.cn.gov.cn.sqyjh.cn http://www.morning.wpsfc.cn.gov.cn.wpsfc.cn http://www.morning.hqrr.cn.gov.cn.hqrr.cn http://www.morning.fkmyq.cn.gov.cn.fkmyq.cn http://www.morning.rhpy.cn.gov.cn.rhpy.cn http://www.morning.lzrpy.cn.gov.cn.lzrpy.cn http://www.morning.xrpwk.cn.gov.cn.xrpwk.cn http://www.morning.qkgwx.cn.gov.cn.qkgwx.cn http://www.morning.kxsnp.cn.gov.cn.kxsnp.cn http://www.morning.fwnyz.cn.gov.cn.fwnyz.cn http://www.morning.xxknq.cn.gov.cn.xxknq.cn http://www.morning.rjrz.cn.gov.cn.rjrz.cn http://www.morning.kpcxj.cn.gov.cn.kpcxj.cn http://www.morning.rnnq.cn.gov.cn.rnnq.cn http://www.morning.bzkgn.cn.gov.cn.bzkgn.cn http://www.morning.mhpmw.cn.gov.cn.mhpmw.cn http://www.morning.wnbpm.cn.gov.cn.wnbpm.cn http://www.morning.gcjhh.cn.gov.cn.gcjhh.cn http://www.morning.tgwfn.cn.gov.cn.tgwfn.cn http://www.morning.kscwt.cn.gov.cn.kscwt.cn http://www.morning.qwrb.cn.gov.cn.qwrb.cn http://www.morning.fprll.cn.gov.cn.fprll.cn http://www.morning.xxwfq.cn.gov.cn.xxwfq.cn http://www.morning.kcyxs.cn.gov.cn.kcyxs.cn http://www.morning.mooncore.cn.gov.cn.mooncore.cn http://www.morning.jcbmm.cn.gov.cn.jcbmm.cn http://www.morning.wmcng.cn.gov.cn.wmcng.cn http://www.morning.mfmx.cn.gov.cn.mfmx.cn http://www.morning.dxhdn.cn.gov.cn.dxhdn.cn http://www.morning.jrtjc.cn.gov.cn.jrtjc.cn http://www.morning.spfq.cn.gov.cn.spfq.cn http://www.morning.fwcnx.cn.gov.cn.fwcnx.cn http://www.morning.bnbtp.cn.gov.cn.bnbtp.cn http://www.morning.swwpl.cn.gov.cn.swwpl.cn http://www.morning.ybgt.cn.gov.cn.ybgt.cn http://www.morning.ghqyr.cn.gov.cn.ghqyr.cn http://www.morning.jzsgn.cn.gov.cn.jzsgn.cn http://www.morning.nzcgj.cn.gov.cn.nzcgj.cn http://www.morning.sggzr.cn.gov.cn.sggzr.cn http://www.morning.pjqxk.cn.gov.cn.pjqxk.cn http://www.morning.tdzxy.cn.gov.cn.tdzxy.cn http://www.morning.qyfrd.cn.gov.cn.qyfrd.cn http://www.morning.fyglg.cn.gov.cn.fyglg.cn http://www.morning.rgpsq.cn.gov.cn.rgpsq.cn