当前位置: 首页 > news >正文

手机网站的网址是什么原因十大免费代理ip软件

手机网站的网址是什么原因,十大免费代理ip软件,品牌网上授权,洛阳建设部官方网站放在前面 课程链接 2024年12月30日 前言#xff1a;强化学习有原理部分的学习#xff0c;也有与实践相关的编程部分。我认为实践部分应该是更适合我的#xff0c;不过原理部分也很重要#xff0c;我目前是准备先过一过原理。 应该花多少时间学习这部分呢#xff1f; 但是这…放在前面 课程链接 2024年12月30日 前言强化学习有原理部分的学习也有与实践相关的编程部分。我认为实践部分应该是更适合我的不过原理部分也很重要我目前是准备先过一过原理。 应该花多少时间学习这部分呢 但是这个视频强调了 放弃速成的想法。把时间线放长给自己更充裕的时间。 强化学习的数学性比较强系统性比较强。 在学习的时候不要带着问题去学习停下来多想想放松心态。 给自己二十天的时间去学习如果每天能学习两三个小时。学得快不是目的把基础打牢让自己对强化学习的理解尽可能深刻一些然后在配上一些实践就可以去阅读论文了。据说这样就不会有很大的障碍了。 扎扎实实的往前走其实才是更高效的。 第一天的学习 一、脉络图 这个图包含了基础的工具以及方式 第一章 基础概念介绍 第二章贝尔曼公式 需要搞明白一个概念state value 和一个工具贝尔曼公式求解贝尔曼公式进而得到一个策略所对应的状态值这个过程就是策略评价 一个很基础的概念我评价一个策略得到它的值-》基于这个值-》改进策略-》循环———得到一个最优的策略。 第三章MC 贝尔曼最优公式其实是贝尔曼公式的一个特殊情况。每一个贝尔曼公式都对应一个策略最优公式也对应了一个策略——最优策略。我们研究贝尔曼公式就是 因为他和最优策略有关系。 强化学习的终极目标 求解最优策略。 学习第三章需要掌握两个概念optimal policy定义沿着它能得到最大的状态值和optimal state value 和一个工具 贝尔曼最优公式。要花比较多的精力去学习理解这个概念 越深刻越好。 分析这个式子用了用到了不动点原理——告诉了我们这个式子两个方面的性质 最优策略是否存在的问题——一定是存在的最优的策略不一定是唯一的但是最优的状态值是唯一的——最优的策略有可能是确定性的也有可能是随机性的。但是一定会存在最优策略 第四章 第一批能够求解最优策略的方法 值迭代该算法就是能求解贝尔曼最优公式的算法策略迭代统一的表达方式上面的两个情况是这个的极端情况 这三个算法的共同特点他们是迭代式的算法并且在每个迭代步骤中都有两个子步骤 策略迭代通过一个值进行策略评价来改进这个策略和值迭代。 这两个步骤会不断地迭代最后找到最优策略。 这样的思想不仅仅是在第四章当中所有的强化学习算法都在这样做。只不过具体的算法形式可能不同。 这个算法是需要模型的但是没有模型怎么办呢这样就来到的第五章。 第五章蒙特卡洛 是最简单也是第一个不需要模型就能找到最优策略的方法。 从第四章到第五章有一个鸿沟我第一次要面对没有模型的情况没了模型我应该怎么办呢 这三个算法难度依次增加。 MC Basic实际上是把第四章中的Policy Iteration依赖于模型的那部分拿掉换成依赖于数据的放进去就得到了MC Basic。但是这个算法实际中不能用因为效率非常低。强化学习真的是一环扣一环学MC需要先学Policy iteration然后还要先学Value iteration还要先学贝尔曼最优等等递归——所以要打好基础 第六章随机近似理论 在学习的时候会有一个鸿沟从非增量将所有的数据都采集到了再求平均到增量一开始会有一个估计得到一个采样就用一个采样来跟新这个估计慢慢的估计就会越来越准这样就不用等待大量数据收集齐了再用这样在收集信息的时候就可以有一些信息来使用估计一个随机变量用这个例子来理解什么事增量什么是非增量介绍了三个算法RM算法实际上是在求解一个简单的g(w)0的一个方程但是不需要知道g(w)长什么样SGD随机梯度下降。SGD其实是一个特殊的RM算法比较SGDBGDMBGD算法之间进行了比较第六章需要掌握增量式算法的思想以及SGD算法思想。 第七章时序差分方法 时序差分方法是强化学习中非常经典的方法 用TD的方法来学习state values之前是用MC的方法来学习第四章是用模型计算state value用TD的思想来学习action valueSarsa通过这个得到action value-》通过这个value来跟新策略-》循环Q-learning算法是一个off-policy算法behavior policy是不同的好处就是可以用别的策略生成的数据拿过来学习得到最优的策略介绍一个统一化的视角我们所学算法的类似的 第八章value-gradient 第八章引入了一个函数进来 神经网络就是函数的一个很好的表达方式首次将神经网络引入到强化学习中。 有一个比较大的鸿沟从表格类型的数据到函数类型的数据value function approximation近似VFA算法实现state estimation1、明确一个目标函数 2、求这个目标函数的梯度 3、通过梯度上升或者下降来对目标函数进行优化找到一个最优的w使得函数能够很好的表达近似真实的vpisVFA算法与sarsa算法结合与Qlearning结合与deep Qlearning结合DQN 第九章policy-gradient gap第八章往前都是value-based的方法第九章到第十章变成了policy-based的方法。第八章的目标函数是值函数j(w)我要跟新值函数的参数使这个值函数能很好的近似估计出来一个策略的值在这个基础之上我再跟新策略得到新的策略循环。 而policy-Gradient的目标函数使Jtheta这里是直接去优化这个theta也就是直接改变策略慢慢的找到最优的策略 第九章的基本思路就是找目标函数求他的梯度然后用梯度去优化目标函数。这里的目标函数是有两个这节课的一个重要目标是熟悉策略梯度的表达式推导比较复杂。获得了梯度我就要通过这个梯度去优化这个最大目标函数介绍一个算法叫REINFORCE算法 第十章Actor-Critic算法 gap将policy-basedvalue-based的方法结合。将第九章和第八章的内容结合起来。其实actor-critic算法就是第九章的policy-gradient的方法。 actor对应policy-gradientcritic对应value-gradient。 如何理解这个actor-critic呢 就是用上一个策略theta来跟新一个新的策略通过这个式子策略就会逐渐变好。 简单说通过q来求出值再用这个值跟新策略策略得到新的值然后再跟新策略以此循环 第十章介绍了几种算法1、最简单的算法就是actor-critic算法——简称QAC2、Advantage actor criticA2C——实际上是引入了一个base-line来减小估计的方差3、off-policy actor-criticac算法本质上是一个on-policy算法但是可以变成off-policy——通过importance sampling重要性采样算法4、前三个的要求策略是随机的在每一个状态都有可能选择到所有的action也可以用确定性的策略deterministic actor-criticDPG 二、这门课程的特点 这门课程是关于原理部分而不是编程实践部分。想学习编程的框架可以配合很多非常好的资料结合学习。 这门课程偏向于通过数学的方式去讲述。而不是通过语言的描述去讲述这样可以了解这个问题最本质的数学原理之后就可以360°无死角的理解这个问题。 更偏向于对强化学习希望有更深刻理解的同学需要对原理部分有比较深的理解。 如果要以此为生强化学习就是我的饭碗要牢牢抓住 要相信自己从数学的方式是学习强化学习最高效的方式。学学学 学完这个课程之后应该学什么呢 实践理论与实践相结合再之后就可以去读论文了
http://www.tj-hxxt.cn/news/224159.html

相关文章:

  • 安网站建设公司济宁住房和城乡建设局网站首页
  • 做英文网站 是每个单词首字母大写 还是每段落首字母大写网站建设创意广告
  • 网站小视频怎么做的网站专题模板下载
  • 网站建设中倒计时模板软件商店app下载安装
  • 义乌网站建设长春网络哪个好
  • 建站空间怎么选高新快速建设网站电话
  • 重庆服装网站建设地址网站建设的网站分析怎么写
  • dede5.7 做的网站 下 加一个discuz论坛网站设置为起始页
  • 国家关于网站信息建设管理文件安陆网站
  • 网站群管理平台建设WordPress多站点恢复
  • 企业网站建设亮点网页设计的网站
  • 网站建设盈利模式通辽做网站通过seo来赚钱
  • 威海高区有没有建设局的网站东至网站建设
  • 青岛网站建设哪个平台好郑青松找谁做的网站
  • 顺义青岛网站建设邢台论坛贴吧
  • 网站标签管理网页制作要多少钱
  • 网站建设流程讯息网站建设中企动力公司
  • 做网站还有市场吗网站忧化 推广同时做
  • 网站项目怎么做的微信营销模式有
  • 网站建设首页需要哪些元素网络管理系统分为哪些层次
  • 惠阳营销网站制作网站建设与管理基础及实训
  • 百度收录万网空间的网站需要多久佛山医疗网站建设
  • 上海建网站公司广告设计需要什么软件
  • 上海企业网站建设价格清远新闻最新
  • 简述一下网站的设计流程四川住房和城乡建设部网站首页
  • 学习做网站建设的学校cdq百度指数
  • 扁平化网站设计欣赏品牌策划是什么
  • 泉州做外贸网站使用网站
  • 济南网站建设公司官网如何自己创建网址
  • 成都金融网站建设公司排名电子政务门户网站建设汇报