厦门 网站建设公司电话,ftp上传文件到网站,wordpress pdf手册,地税局内网网站建设参考资料#xff1a;蘑菇书、周博磊老师课程 在强化学习中#xff0c;智能体与环境交互是通过马尔可夫决策过程来表示的#xff0c;因此马尔可夫决策过程是强化学习的基本框架。 马尔可夫性质 指一个随机过程在给定现在状态及所有过去状态情况下#xff0c;其未来状态的条件… 参考资料蘑菇书、周博磊老师课程 在强化学习中智能体与环境交互是通过马尔可夫决策过程来表示的因此马尔可夫决策过程是强化学习的基本框架。 马尔可夫性质 指一个随机过程在给定现在状态及所有过去状态情况下其未来状态的条件概率分布仅依赖于当前状态。如下s代表状态h代表历史所有状态。 马尔可夫过程 与 马尔科夫链 马尔可夫过程是一组具有马尔可夫性质的随机变量序列其中下一个时刻的状态只取决于当前状态。 离散时间的马尔可夫过程也称为马尔可夫链Markov chain。 马尔科夫奖励过程MRP 马尔可夫奖励过程Markov reward process, MRP是马尔可夫链加上奖励函数。奖励函数 R是一个期望表示当我们到达某一个状态的时候可以获得多大的奖励。另外还定义了折扣因子以控制未来的奖励对当前价值的影响。 回报 与 价值 回报当前状态 t 的回报Gt表示未来T个时刻的奖励的叠加同时要乘上折扣因子折扣因子通常作为超参数学习。 价值回报的期望 贝尔曼方程 价值是回报的期望那么求 St 状态的价值就可以从St 开始生成很多条轨迹然后求回报最后对回报求均值。 贝尔曼方程是另一种求价值的方法也由价值是回报的期望那条公式推导出来的定义了当前状态与未来状态的关系 把贝尔曼方程写成矩阵形式可以求得一个解析解但是当矩阵太大时解析解就不好使了复杂度太高。 马尔可夫决策过程MDP 相对于马尔可夫奖励过程马尔可夫决策过程多了决策决策是指动作其他的定义与马尔可夫奖励过程的是类似的。 马尔可夫决策过程中的策略 策略定义了在某一个状态应该采取什么样的动作。知道当前状态后我们可以把当前状态代入策略函数来得到一个特定动作的概率。策略函数Π 马尔可夫决策过程和马尔可夫奖励过程的转换 与 区别 决策过程下一状态同时受当前状态和当前状态中所采取的动作影响。 奖励过程下一状态只受当前状态影响。 那么将决策过程当前状态所可能执行的所有动作的概率求和即变成了奖励过程的状态转移函数 区别左奖励过程 右决策过程 马尔可夫决策过程的价值函数 决策过程的价值函数定义为 注意下标π表示这里的价值函数仅在当前策略函数下生效即对当前策略进行采样来得到一个期望。因为前面说过决策过程同时受状态和动作的影响换一套策略函数Gt中未来的状态可能就发生了变化。 另外引入了一个 Q 函数Q-function。Q 函数也被称为动作价值函数action-value function。Q 函数定义的是在某一个状态采取某一个动作它有可能得到的回报的一个期望即 Q函数即把价值函数中对策略函数使用动作采样变成对一个特定动作采样。 所以Q函数对该策略下所有的动作情况求和就等于该策略下的价值函数 贝尔曼期望方程 对把价值函数写成贝尔曼方程右侧的形式然后对所有策略的价值函数求期望注意是对所有策略的期望。 对Q函数也可以做此操作得到Q函数的贝尔曼期望方程 通过化简可得到当前状态价值和未来价值的关系以及当前Q和未来Q的关系 策略评估预测 已知马尔可夫过程和当前的策略 π计算价值函数就是策略评估。也就是当前采取的策略有多大的价值。 预测 与 控制 预测评估一个给定的策略输入是马尔可夫决策过程 S,A,P,R,γ和策略 π输出是价值函数 Vπ。 控制搜索最佳策略输入是马尔可夫决策过程 S,A,P,R,γ输出是最佳价值函数optimal value functionV∗ 和最佳策略optimal policyπ∗。 预测和控制是马尔可夫决策过程里的核心问题。在强化学习中通过解决预测问题进而解决控制问题。 策略迭代 与 价值迭代 策略迭代和价值迭代都是解决马尔可夫决策过程的控制问题的方法。 策略迭代 由两个步骤组成策略评估和策略改进。 策略评估即对当前的策略计算价值V。 策略改进根据价值V求Q函数求使得Q函数最大的策略作为新策略然后可以重复策略评估步骤计算新策略下的价值函数。 若新策略的价值与当前策略的价值之间变化不大则迭代结束。 结束后取最后一次Q函数的极大化的动作即得到最优价值函数下面的方程也叫贝尔曼最优方程 贝尔曼最优方程表明最佳策略下的一个状态的价值必须等于在这个状态下采取最好动作得到的回报的期望。 当马尔可夫决策过程满足贝尔曼最优方程的时候整个马尔可夫决策过程已经达到最佳的状态。 价值迭代 把贝尔曼方程拿来取使得价值最大的动作进行迭代。 迭代过程 策略迭代和价值迭代的区别 策略迭代是不断地通过计算价值计算Q函数取使得Q函数最大的动作来更新策略重复的过程中每次都有做更新策略的操作。而价值迭代在迭代过程中只计算Q函数然后通过取最大化Q函数来更新价值函数直到收敛后再去求在最大价值下的策略。