当前位置: 首页 > news >正文

谷歌推广seo网站优化排名方案

谷歌推广seo,网站优化排名方案,低价网站建设优化公司,品牌建设和品牌打造对企业的意义强化学习算法总结 (1) 1.综述 强化学习是通过与环境进行交互,来实现目标的一种计算方法。 s − a 1 − r − s ′ s - a_1 - r- s s−a1​−r−s′ 1.1强化学习优化目标 p o l i c y a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy ar…

强化学习算法总结 (1)

1.综述

强化学习是通过与环境进行交互,来实现目标的一种计算方法。
s − a 1 − r − s ′ s - a_1 - r- s' sa1rs

1.1强化学习优化目标

p o l i c y = a r g m a x p o l i c y E ( a , s ) [ r e w a r d ( s , a ) ] policy= argmax_{policy} E_{(a,s)}[reward(s,a)] policy=argmaxpolicyE(a,s)[reward(s,a)]

强化学习的最终目标是最大化智能体策略在和环境交互中获得的reward。通过改变策略来调整智能体和环境交互数据的分布。

1.2 平衡与探索

​ 策略告诉我们应该采取哪些动作,同时也要对新的策略进行探索。

这里引入一个概念为懊悔值,当前动作a的收益与最优结果的差距

  • ϵ − g r e e d y \epsilon - greedy ϵgreedy

策略
i f : 采样概率: 1 − ϵ a t = a e g m a x Q ( a ) e l s e : 随机策略 if:采样概率:1 - \epsilon \\ a_t = aegmaxQ(a)\\ else:\\ 随机策略 if:采样概率:1ϵat=aegmaxQaelse:随机策略
但是结果来看积累的懊悔值是和和时间成正比的,因为随机拉杆的探索概率是固定的

  • 上置信界法UCB

a t = a r g m a x α [ Q ( A ) ] a_t = argmax_\alpha [Q(A)] at=argmaxα[Q(A)]

  • 汤普森采样

2. 马尔科夫决策过程

MDP:利用当前已知的信息就可以决定未来

采样:根据状态转移矩阵生成一个状态序列 s 1 − > s 2 − > . . . − > s n s_1 -> s_2 -> ...-> s_n s1>s2>...>sn

2.1 马尔科夫奖励过程

在决策过程中加入了奖励函数r和折扣因子,形成了马尔科夫奖励过程 < S , P , r , γ > <S,P,r,\gamma> <S,P,r,γ>,状态集合,状态转移矩阵,奖励函数,折扣因子
G t = R t + γ R t + 1 . . . = ∑ γ k R t + k G_t = R_t+ \gamma R_{t+1}... = \sum \gamma^k R_{t+k} Gt=Rt+γRt+1...=γkRt+k

  • 价值函数
    V ( s ) = E [ G t ∣ S t = s ] 我们把 G t 拆开 R t + γ V ( s t + 1 ) 而后面的 E ( γ V ( s t + 1 ∣ s t = s ) ) 用状态转移函数表示 V ( s ) = r ( s ) + γ ∑ P ( s ′ ∣ s ) V ( s ′ ) V(s) = E[G_t |S_t =s]\\我们把G_t 拆开R_t +\gamma V(s_{t+1}) 而后面的E(\gamma V(s_{t+1}|s_t =s)) 用状态转移函数表示\\V(s) = r(s) +\gamma\sum P(s'|s)V(s') V(s)=E[GtSt=s]我们把Gt拆开Rt+γV(st+1)而后面的E(γV(st+1st=s))用状态转移函数表示V(s)=r(s)+γP(ss)V(s)

只适用于规模比较小的马尔科夫过程计算价值函数,不然使用 MC,TD,动态规划等算法

2.2 马尔科夫决策过程

MDP;<S,A,P,r, γ \gamma γ>:这里不再使用状态转移矩阵,而是状态转移函数

  • S:状态合集
  • A:动作合集
  • γ \gamma γ:折扣因子
  • r(s,a):奖励函数,收到了s和a影响
  • P(s’|s,a):状态转移函数

策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a| S_t =s) π(as)=P(At=aSt=s):表示当前状态下,采取这个策略a的概率。如果是一个随机策略,输出是关于动作的概率分布函数

  • 状态价值函数
    V π = E π [ G t ∣ S t = s ] V^{\pi} = E_{\pi}[G_t | S_t = s] Vπ=Eπ[GtSt=s]
    当前状态下,预计未来的收益

  • 动作价值函数
    Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^{\pi}(s,a) = E_\pi[G_t | S_t = s ,A_t =a] Qπ(s,a)=Eπ[GtSt=s,At=a]
    在遵循当前策略下,执行动作a的收益

V π ( s ) = ∑ π ( a ∣ s ) Q π ( s , a ) V^\pi(s) = \sum\pi(a|s) Q^\pi (s,a) Vπ(s)=π(as)Qπ(s,a)

  • 贝尔曼期望方程

Q π ( s , a ) = E π [ R t + γ Q π ( s ′ , a ′ ) ∣ S t = s , A t = a ] = r ( s , a ) + γ ∑ V ( s ′ ) = r ( s , a ) + γ ∑ P ( s ′ ∣ a , s ) ∑ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) Q^\pi (s,a) = E_\pi[R_t+\gamma Q^\pi(s',a')|S_t= s,A_t = a] \\= r(s,a) +\gamma\sum V(s') \\= r(s,a) +\gamma\sum P(s'|a,s)\sum \pi(a'|s')Q^\pi(s',a') Qπ(s,a)=Eπ[Rt+γQπ(s,a)St=s,At=a]=r(s,a)+γV(s)=r(s,a)+γP(sa,s)π(as)Qπ(s,a)

V π ( s ) = E π [ R t + γ V π ( s ′ ) ∣ S t = s ] = ∑ π ( a ∣ s ) ( r ( s , a ) + γ ∑ P ( s ′ ∣ s , a ) V π ( s ′ ) ) V^\pi(s) = E_\pi[R_t+\gamma V^\pi(s')|S_t = s] =\\\sum\pi(a|s)(r(s,a)+\gamma\sum P(s'|s,a)V^\pi(s')) Vπ(s)=Eπ[Rt+γVπ(s)St=s]=π(as)(r(s,a)+γP(ss,a)Vπ(s))

http://www.tj-hxxt.cn/news/99198.html

相关文章:

  • 专业企业网站建设定制百度推广服务费一年多少钱
  • 邢台地区网站建设国际热点事件
  • 怎么把网站提交给搜索引擎站长之家seo查询
  • 东莞集团网站建设规定互联网营销师怎么报名
  • 成功的营销型网站设计特点网络营销渠道策略研究
  • 建设个公司网站需要多少费用写软文
  • 行业门户网站制作百度广告位价格
  • 公司高端网站设计公司网络营销未来有哪些发展趋势
  • 做网站需要的法律知识企业建设网站公司
  • 武汉微信网站郑州百度推广代理公司
  • 广州网址大全搜索引擎关键词优化技巧
  • php网站开发经典教材网上全网推广
  • 高能建站系统怎么收费网络优化大师app
  • 台州卫浴网站建设新浪网今日乌鲁木齐新闻
  • 中国进入一级战备有多可怕?广州aso优化
  • 推文最好的网站是哪个百度站长平台网页版
  • 网站建设要多少钱链接制作软件
  • 做擦边球网站赚钱么网页制作费用大概多少
  • 苹果做封面下载网站网站优化seo是什么
  • 做引流的公司是正规的吗济南seo整站优化招商电话
  • 成品网站建设价格帆软社区app
  • 太仓住房城乡建设网站网站搜索引擎优化
  • 个人网站放什么内容免费学生网页制作成品代码
  • 谷歌seo推广培训班关键词seo排名怎么样
  • 电子商务网站建设的步骤一般为怎么百度推广
  • 哪些公司经常做网站人民政府网站
  • 信息技术会考做网站seo快速优化软件
  • 怎么把淘宝店放到自己做的网站去什么网站可以发布广告
  • 销售网站开发论文展望百度人工服务在线咨询
  • 政府门户网站建设的实施方案店铺推广方案怎么写