当前位置: 首页 > news >正文

合肥经开区建设局网站百度官网认证多少钱一年

合肥经开区建设局网站,百度官网认证多少钱一年,设计素材网排名,wordpress图像插件VPG算法 前言 首先来看经典的策略梯度REINFORCE算法: 在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt​,与动作概率对数相乘,作为误差反向传播,有以下几个特点: …

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法:

在这里插入图片描述

在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:

  • 每个时间步更新一次参数
  • 只有策略网络,没有价值网络
  • 计算 G G G时,仅仅采样了一条轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • G G G实际上类似于 Q Q Q函数,因为 Q Q Q函数就是动作价值回报的期望

VPG算法

全称:Vanilla Policy Gradient,但是属于Actor-Critic算法,因为它既有策略网络,又有价值网络

  • 每个episode更新一次参数
  • 上述伪代码中,计算 G G G时,采样了多个轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • Reward-to-go:即折扣因子 γ = 1 \gamma=1 γ=1 G t = R ^ t = r t + r t + 1 + … + r T G_t=\hat{R}_t=r_t+r_{t+1}+\ldots+r_T Gt=R^t=rt+rt+1++rT T T T为episode的长度
  • 通常为 A ^ t \hat{A}_t A^t引入baseline,以减小方差,提升训练稳定性

A ^ t = R ^ t − V ϕ k \hat{A}_t=\hat{R}_t-V_{\phi_k} A^t=R^tVϕk

比较

/REINFORCEVPG
价值网络
参数更新每个时间步每个episode
回报有折扣无折扣
采样轨迹一条多条
baseline
http://www.tj-hxxt.cn/news/97211.html

相关文章:

  • visualstudio 做网站seo 页面链接优化
  • 温州网站开发流程新产品宣传推广策划方案
  • 合肥做网站开发多少钱域名查询注册商
  • 可以将自己做的衣服展示的网站营销策略是什么意思
  • 怎么弄 一个空间放两个网站 用不同的域名网络维护
  • 微擎可以做网站吗站长工具站长
  • webgl网站建设营销活动方案模板
  • 淘宝网网页版登陆网址东莞网站seo公司
  • 如何做网站卖画google下载安卓版
  • 个人网站备案涉及支付宝seo专业知识培训
  • 网站建设高端定制宣传平台有哪些
  • 单位网站备案每日军事新闻
  • 有声小说网站开发域名申请
  • 长沙专业网站建设公司排名网络推广的方法和技巧
  • 网站首页设计费用青岛百度推广多少钱
  • 网站上怎样做轮播图利尔化学股票最新消息
  • 专门做电商的网站有哪些网络推广是做什么工作
  • 日本logo设计网站足球世界排名国家最新
  • 做调查网站的问卷哪个给的钱高中文搜索引擎
  • 网站关键词可以做几个百度账户
  • wordpress文章批量编辑器家庭优化大师免费下载
  • 网站建设与优化百度灰色词优化排名
  • 企业网站后台模版seo关键词优化技术
  • 游戏网站建设多少郑州seo优化公司
  • 米拓建站怎么样百度站长平台账号购买
  • 邢台哪儿专业做网站微信公众号推广网站
  • wordpress模板缩略图代码优化大师最新版本
  • 深圳市网站建设公司设计公司网站一年了百度不收录
  • 哪些网站可以做电脑画画赚钱怎么样做推广
  • 做网站的目标当日alexa排名查询统计