当前位置: 首页 > news >正文

四川省住房和城乡建设厅网站无法进入网站备案 域名证书

四川省住房和城乡建设厅网站无法进入,网站备案 域名证书,装修网站模板源码,云vps怎么搭建网站1、前言 我们在训练神经网络时#xff0c;最常用到的方法就是梯度下降法。在了解梯度下降法前#xff0c;我们需要了解什么是损失(代价)函数。所谓求的梯度#xff0c;就是损失函数的梯度。如果不知道什么是梯度下降的#xff0c;可以看一下这篇文章#xff1a;机器学习入… 1、前言 我们在训练神经网络时最常用到的方法就是梯度下降法。在了解梯度下降法前我们需要了解什么是损失(代价)函数。所谓求的梯度就是损失函数的梯度。如果不知道什么是梯度下降的可以看一下这篇文章机器学习入门教学——梯度下降、梯度上升_恣睢s的博客-CSDN博客损失函数其实就是神经网络里的标准和期望的标准相差多少的定量表达。现有模型与期望模型的质量差距损失函数越小现有模型就越逼近期望模型现有模型的精度也就越高。【注】损失函数和代价函数可以看作是两个概念不同的名字但代表的函数和作用完全一样通常可以互相替换使用没有实质区别。损失函数该如何设计呢这里有三种方法最小二乘法、极大似然估计法、交叉熵法。 机器学习入门教学——损失函数最小二乘法机器学习入门教学——损失函数极大似然估计法机器学习入门教学——损失函数交叉熵法 2、交叉熵法 交叉熵法是先把模型换成熵(数值)然后再用熵去比较不同模型之间的差异。在了解交叉熵之前我们先了解以下几个概念。 2.1、信息量 2.1.1、定义 信息的作用是消除事件的不确定性信息量就是信息能消除事件不确定性的程度。例如 掷骰子猜点数时告诉你一个消息再猜点数。下面三条消息消除不确定性的程度是逐渐增大的其消息量也是逐渐增大的。​我们分别来看上面三条消息发生的概率 骰子的点数大于0P1骰子的点数大于3P1/2骰子的点数是5P1/6我们会发现这些消息发生的概率是逐渐减小的。所以信息量的大小与信息发生的概率成反比。概率越大信息量越小概率越小信息量越大。设信息描述的事件为x其发生的概率为P(x)则信息量的公式为    具体怎么来的就不阐述了单位为比特bit 2.1.2、计算 假设我们现在要给计算机输入一个十六位的数据。在输入数据之前这16位数据都可以取0或1这个数据的概率就是。当输入这个数据后这个数据是已知的了它的概率就变成了1。那这个数据的信息量是多少呢 这个数据的信息量为16比特。 2.2、信息熵 2.2.1、定义 信息量是衡量某个具体的事件而信息熵是衡量整个系统中的所有事件即一个系统从原来的不确定到确定难度有多大。信息熵也称为熵可以表示为所有信息量的期望。所以信息熵的公式为 单位为比特熵代表了随机变量的不确定性即混乱程度。熵越大代表随机变量的不确定性越大。当变量可取值的种类一定时其取每种值的概率分布越平均其熵值越大。 2.2.2、计算 假设我们要预测一场球赛的输赢求它的信息熵。已知法国队赢球的概率是99%中国队赢球的概率是1%。 法国队赢球的信息量为中国对赢球的信息量为信息熵为 2.3、相对熵KL散度 比较两个模型就可以把两个模型的的熵计算出来再直接比较它们的熵。但是期望模型是未知的无法直接求熵。那就不得不提到相对熵了。如果对于同一个随机变量X有两个单独的概率分布P(X)和Q(X)则我们可以使用KL散度来衡量这两个概率分布之间的差异。例如下面有两个模型的概率分布。 以下就是它们相对熵的计算公式 其中P在前表示以P系统为基准去考虑P和Q相差多少。【注】以P或以Q为基准性质是不同的。其实就是P、Q系统中对应事件的信息量的差值再求整体期望。如果Q和P相等那相对熵就为0。简单来说就是Q要达到和P一样的分布的话还差了多少信息量。观察发现P作为基准时熵是不变的只需要考虑前面一部分。而前面一部分就是交叉熵了 2.4、交叉熵 我们已经知道KL散度 交叉熵 - 信息熵交叉熵的公式表示为 由结论可知KL散度一定是大于等于0的。所以交叉熵是一定大于等于信息量并且大于0的。不用深究原因这时如果要让Q的概率模型和P的概率模型非常接近的话就要找到交叉熵的最小值。也就是说交叉熵本身就可以作为损失函数。 2.5、运用 既然已经知道了交叉熵可以作为损失函数那么交叉熵中的一些变量在神经网络中应该用什么进行替换呢我们还是用之前判断图片是不是猫的例子。首先中的n代表输入图片的数量。因为P为基准也就是被比较的模型所以P是理想模型。而Q是比较的模型也就是现有模型。那么其中的就应该是是猫和不是猫的概率就应该是是猫和不是猫的概率。转换之后就是 这个公式和极大似然估计作为损失函数的公式是一样的。 3、交叉熵法和极大似然估计法的区别 虽然两者在形式上是相同的但是在物理层面还是有很大区别的。极大似然估计中引入log是为了把连乘换做连加底数为几是无所谓的而交叉熵中log以2为底是定义中给出的是固定的它代表最后计算出来的单位是比特。极大似然估计法本来是求最大值只是为了适应损失函数才加了个负号改成求最小值而交叉熵的负号是定义中给出的。
http://www.tj-hxxt.cn/news/133169.html

相关文章:

  • 工商网站查询企业信息官网全国网站主机要多少钱
  • 网站建设与客户价格谈判技巧开发网站开票名称是什么
  • 钓鱼网站下载汽车网站建设工作室
  • 商城系统开源英文seo是什么意思
  • 淘宝网站开发语言企业标识系统
  • 大连做网站谁家好城市建设游戏模拟网站
  • 定制网站 报价外链管理
  • 一个完整的企业网站网站建设和优
  • wordpress营销型主题关键词优化一般收费价格
  • 潍坊网站定制公司企业营销型网站建设规划
  • 绩溪做网站做机械设备哪个网站好
  • 让做网站策划没经验怎么办网上商城推广方案
  • 广州网站建设 全包怎么给wordpress加rss
  • 电子商务平台网站推广公司网络规划设计方案
  • 网站新闻前置备案如何把代码wordpress
  • 网站开发者模式wordpress主题xstore
  • 商城展示网站wordpress 代码 视频
  • 青岛市黄岛区网站建设西安企业名录电话资料
  • 云浮东莞网站建设怎么做网页广告
  • 建站seo是什么表白网页制作源代码
  • 公司网站招聘费如何做会计分录提高网站排名的方法
  • 成都wap网站建设温州企业建站系统
  • 长春网站建设网科技网站域名
  • 书本翻页 网站模板ppt电子商务网站建设
  • 企业网站推广价格建域名做网站
  • 学做网站论坛vip码产品单页营销型网站模板
  • 专门做水果的网站wordpress异步加载数据
  • 电子商务网站建设评价论文重庆建工招标平台
  • 章丘做网站公司网站建设代理怎么做
  • 汕头响应式网站专家网络公司排名