当前位置: 首页 > news >正文

企业可以备案几个网站自助建站免费建站平台

企业可以备案几个网站,自助建站免费建站平台,买服饰网站建设,模板式自助建站数值稳定性 模型初始化和激活函数 数值稳定性 神经网络的梯度 考虑如下d层的神经网络#xff08;t代表层#xff09; 计算损失 l 关于参数 Wt 的梯度#xff1a; 这样的矩阵乘法带来的问题#xff1a; #xff08;1#xff09;梯度爆炸 #xff08;2#xff09;梯度…数值稳定性 模型初始化和激活函数 数值稳定性 神经网络的梯度 考虑如下d层的神经网络t代表层 计算损失 l 关于参数 Wt 的梯度 这样的矩阵乘法带来的问题 1梯度爆炸 2梯度消失 例子MLP 加入如下MLP省略偏移 进行累乘 (1) 梯度爆炸 使用ReLU 作为激活函数 假设W中的值都大于1那么会得到很大的值梯度爆炸 梯度爆炸的问题 值超出值域(infinity) 对于 16位浮点数尤为严重(数值区间 6e-5-6e4) 对学习率敏感 如果学习率太大 -大参数值 -更大的梯度如果学习率太小-训练无进展我们可能需要在训练过程不断调整学习率 (2) 梯度消失 使用 sigmoid作为激活函数 当输入相对较大的时候激活函数的导数会变成0 梯度消失的问题 梯度值变成 0 对 16 位浮点数尤为严重 训练没有进展 不管如何选择学习率 对于底部层尤为严重 仅仅顶部层训练的较好无法让神经网络更深和一个很浅的神经网络没有区别 反向传播更新参数w越来越小最终趋于零也失去了学习的必要 总结 当数值过大或者过小时会导致数值问题常发生在深度模型中因为其会对n个数累乘 让训练更加稳定 目标:让梯度值在合理的范围内例如[le-6,1e3] 将乘法变加法 ResNet, LSTM 归一化将梯度变成均值为0方差为1 梯度归一化梯度裁剪 合理的权重初始和激活函数 模型初始化和激活函数 让每层的方差是一个常数 将每层的输出和梯度都看做随机变量让它们的均值和方差都保持一致 t: 第t层i: 第i个变量 假设我们想要的输出如下所有的输出和梯度的均值、方差 都在一个常数 权重初始化 在合理值区间里随机初始参数训练开始的时候更容易有数值不稳定 远离最优解的地方损失函数表面可能很复杂最优解附近表面会比较平 使用 N(0,0.01)来初始可能对小网络没问题但不能保证深度神经网络 如何保证之前的假设成立呢 例子MLP 假设 i.i.d独立同分布均值E为0Var方差为一个常数当前层的权重和当前层的输入是一个独立事件。 假设没有激活函数 实现的目标中的 正向方差 【方差公式】方差等于平方的期望减去期望的平方方差D(X)E(X^ 2)-E(X)^2 对于和的平方 等价于 每一项的平方不相等的交叉项的乘积和 第二行的加号后面的累加为0的原因是之前假设了wt_i,j是独立的同分布即 i.i.d那么w_t_i,j的均值就为0即Ewti,j0即 E第二行第二项0 方差 平方的期望 - 期望的平方 现在期望的平方等于0所以方差 平方的期望可得到第四行 n_t-1当前第t层的输入的维度 接下来看 反向的均值和方差 注意 (AB)转置B转置xA转置 和正向类似老师并没有细推 Xavier初始化常用的权重初始化的方法 基于该方式对某层权重初始化时该层权重的初始化会根据该层的输入维度、输出维度来决定如权重的方差尤其是当 输入输出维度不一定、或网络变化比较大时可以根据输入输出维度来适配权重使得输出的方差和梯度都在恒定合理的范围内 满足正向和反向的条件很难但可以取一个折中的方法即 给定当前第t层的输入维度nt-1和输出维度nt的大小那么就可以由这俩得到当前第t层的权重的方差γt。 假设 线性的激活函数只是为了简单理论分析实际上不可能用线性的激活函数 这就说明为了使正向的输出为均值为0、方差为固定值则要求线性激活函数的α1、β0即为 输入x本身 反向与正向类似 也说明激活函数必须是f(x)x 最后检查真正的激活函数因为激活函数都是非线性的而上面是以线性激活函数举例的如使用泰勒展开 可以发现下图中tanh和relu在原点处基本都是f(x)x虽然sigmoid不过原点但经过调整后的sigmoid如下图中蓝线即 乘四再减二后也是过原点且在原点处近似为f(x)x即 经过调整后的sigmoid函数也能解决以前原sigmoid存在的问题 为何只关注在0点附近的表现是否能满足f(x)x的要求因为一般神经网络的权重w的取值都是在0附近的。 QA 问题nan、inf如何产生以及怎么解决 inf就是太大即一般是lr太大或 权重初始化时太大了 nan一般是 除0了 解决 合理初始化权重权重的初始 一般均值为0方差小一点当能出现正确的值之后 再慢慢调大权重的方差使得训练有进展 选择合适的激活函数、选择合适大小的lr一般是把lr一直往小调 直到inf、nan不出现 问题使用ReLU激活函数是如何做到拟合x平方或者三次方这种曲线的? 不是单独的relu来拟合而是relu学习到的权重w 共同作用只是基于relu提供非线性的特性 问题梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题? 梯度消失产生的原因有很多种sigmoid只是其中的一种可能 用ReLU替换 可以降低 产生梯度消失的概率但不确保一定能完全解决 问题梯度爆炸是由什么激活函数引起的吗? 爆炸的产生和激活函数无关一般都是由每层的输出太大 然后多个层累乘引起的 问题resnet还是会出现数值稳定性? 各种技术都是在缓解、减轻问题但不是完全解决用ResNet只是会让数值稳定性更好一点整个深度学习的进展都是在 让数值更加稳定 总结 合理的权重初始值和激活函数的选取可以提升数值稳定性
http://www.tj-hxxt.cn/news/141955.html

相关文章:

  • 公司网站与营销网站在栏目上的不同邀请推广app
  • 淄博学校网站建设哪家好南宁码科网站建设
  • 湘潭网站建设 电话磐石网络广东seo网站设计
  • 江苏电商网站开发苍溪县规划和建设局网站
  • 在线建站|网页制作|网站建设平台许昌市网站建设
  • jsp网站开发实例视频移动端app
  • 数据库网站开发站长之家特效网站
  • 做网站的公司还市场吗百度网址导航主页
  • 投教网站建设临沂文联最新消息
  • 营销型类型网站多少钱些全国教育平台网站建设
  • 北京做网站开发公司电话苏州营销型网站制作多少钱
  • 云空间布置网站免费查询公司信息
  • 邵阳做网站哪家好企业邮箱263登录入口
  • php新手网站开发二级建造师官网查询系统
  • excel做网站二维码网站开发的完整流程
  • 微软网站开发软件如何创业做网站
  • 哪家公司做跳转网站dedecms源码下载
  • 海南创作什么网站谷歌seo推广公司
  • 网站关键词提升店铺首页图片
  • 特效网站模板半夜一分快三app推荐直播下载
  • 电脑怎样做轰炸网站wordpress phone主题
  • 高端网站开发地址天元建设集团有限公司张国庆
  • asp.net做购物网站正确建设企业网站
  • jsp网站建设课程设计一个网站设计的费用
  • 网站的后台管理账号和密码聊城集团网站建设多少钱
  • 电子商务网站建设需要学什么软件怎么样提升自己的学历
  • 购买网站域名东莞网页制作价格
  • 个人做网站时不要做什么样的网站网站域名的作用是什么
  • 三乡网站建设公司长沙网站搭建
  • 网站建设与推广是什么意思江苏企业网站建设公司