当前位置: 首页 > news >正文

河南做网站 河南网站建设郑州seo排名扣费

河南做网站 河南网站建设,郑州seo排名扣费,怎么在国外做网站,山西太原今天重大新闻on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。 behavior policy:采样数据的策略,影响的是采样出来s,a的分布。 target policy:就是被不断迭代修改的策略。 如果是基于深度…

on-policy的定义:behavior policy和target-policy相同的是on-policy,不同的是off-policy。

behavior policy:采样数据的策略,影响的是采样出来s,a的分布。
target policy:就是被不断迭代修改的策略。

如果是基于深度的算法,那么非常好分辨:目标函数里面一定有s和a的期望,而计算梯度的时候使用了SGD,把一个采样作为了期望的值。但是这里面还有一个隐含的限制就是采样遵循的分布必须是s,a的分布。

因此分辨是否是on-policy的,只需要看目标函数。如果目标函数中s,a的分布和策略相关的,那么一定是on-policy的,如果是策略无关的,那么一定是off-policy的。

比如DQN的目标函数:在这里插入图片描述
这里一个(s,a)对看成一个随机变量,服从均匀分布,因此分布和策略无关(至于为什么s,a是均匀分布,那个是算法自己假设的),因此采样的时候需要用到experience replay,使得不管什么策略采样得到的reward,都变成均匀分布的。

因此用了experice replay之后,随便什么策略采样,虽然采样出来s,a服从那个策略的分布,但是经过experice replay之后还是变成了均匀分布。

比如PG:
在这里插入图片描述

这里面的随机变量是s, 而s是服从stationary distribution,就是agent出现在这个state的次数形成的分布。而这个分布和策略pi是相关的,因此是on-policy的(改变策略之后,agent出现的概率也改变了)

比如DPG:

在这里插入图片描述
这里面的分布d是一个常数(这是为了计算梯度方便),因此DPG中s,a的采样和策略无关,是off-policy的。

比如PPO:

在这里插入图片描述
就是一个期望+一个类似正则项的东西,而非常明显看出来,这个期望是服从策略theta’的,也就是说s,a分布和策略相关,因此是on-policy的。

简单说下PPO:PPO用两个网络表示策略,一个是theta’一个是theta,用theta’网络的策略采样reward,得到的reward给theta的网络梯度下降。看起来怎么用了两个策略? 其实两个策略最后慢慢收敛到一起的,是一个策略。如果是off-policy是完全和策略无关的。

http://www.tj-hxxt.cn/news/24302.html

相关文章:

  • 广州海珠网站设计百度点击软件还有用吗
  • 哪个网站建设企业网站开发
  • 网站开发工程师学什么seo专员是干嘛的
  • 好看的wordpress主题网站关键词优化排名怎么做
  • 简约网站设计网站优化基本技巧
  • wordpress建站 评测seo外链发布
  • 北京网站制作设计价格今日新闻十大头条内容
  • 淄博网站建设优化seo一键优化下载安装
  • 网站建设制作经验足公司网站建设服务
  • cad图纸免费下载网站最新一周新闻
  • wordpress shop主题福州seo网址优化公司
  • 网站内容分享品牌营销策划书
  • 新手学做网站代码页面seo是什么意思
  • wordpress官网的文档sem和seo是什么职业岗位
  • 网络营销是什么网络历下区百度seo
  • 番禺建设网站直通车推广计划方案
  • 个人网站免费的吗多合一seo插件破解版
  • 越南的网站建设百度手机版
  • 江西省住房和城乡建设厅的网站河北seo基础
  • 网站开发可以用两种语言吗云盘搜索引擎入口
  • 股票网站怎么做动态表格百度权重5的网站能卖多少钱
  • 旅游电子商务网站开发北京网站建设制作公司
  • 大棚网站怎么做2345网址导航官网官方电脑版下载
  • 公司网站开发费用计入什么科目免费制作网页的网站
  • wordpress 做购物网站常州seo外包公司
  • 服务器做网站数据库安卓优化大师官方版本下载
  • 网站推广阶段山东百度推广
  • vs做网站开发网站外链平台
  • 域名注册了 如何做网站苏州百度推广分公司电话
  • 中山网络推广seo专业seo外包靠谱