长沙如何做网站,网站运维服务内容,个人公司网站搭建,电商设计公司有哪些On Policy: 采集数据的模型#xff0c;和训练的模型#xff0c;是同一个。缺点#xff1a;慢#xff0c;生成一批样本数据#xff0c;训练一次#xff0c;又要重新生成下一批。 Off Policy: 采集数据的模型#xff0c;和训练的模型#xff0c;不是同一个。有点#xf… On Policy: 采集数据的模型和训练的模型是同一个。缺点慢生成一批样本数据训练一次又要重新生成下一批。 Off Policy: 采集数据的模型和训练的模型不是同一个。有点快生成一批样本数据可以供训练多次。 例子 On Policy: 小明上课玩手机老师批评了小明小明做了改正不玩手机了。行为是小明产生的改正也是小明做的所以是On Policy。 Off Policy: 小明上课玩手机老师批评了小明和小明同样喜欢上课玩儿手机的小王看到小明因为这个被批评后做了改正不玩手机了。行为是小明产生的改正是小王做的所以是Off Policy。 重要性采样 从最开始的x服从p分布转化到x服从q分布。 把重要性采样用在GAE强化学习上 以上就是PPO的梯度。 以下就是PPO的损失函数 在参考模型上进行采样并且A里的状态价值V也是用参考模型的。 训练模型和参考模型不能偏差过大 例子如果小王是成绩好的学生那么差生小明因为考试经常交白卷被老师批评这件事被小王看到则对小王影响不大小王没啥要改正的地方。只有当小王也是差生也有时会交白卷此事才对小王有警示作用促其改正。 加约束有2种方式 第1个是把KL散度加到loss里。2个分布完全相等时KL散度为0差异越大KL散度越大 第2个是加约束P比值不能超出一个范围。