齐齐哈尔做网站的公司,盐城中瑞做网站公司,厅门户网站建设,wordpress中文版 显示英文目录 1 前言2 利用step和reset函数创建自定义环境2.1 对象描述2.2 reset函数2.3 step函数2.3 构建自定义环境3 使用匿名函数传递额外的参数4 可视化检查自定义函数的输出参考链接1 前言
本文介绍如何基于MATLAB编写step、reset函数,创建自己的强化学习环境(Environment)。
使… 目录 1 前言2 利用step和reset函数创建自定义环境2.1 对象描述2.2 reset函数2.3 step函数2.3 构建自定义环境 3 使用匿名函数传递额外的参数4 可视化检查自定义函数的输出参考链接 1 前言
本文介绍如何基于MATLAB编写step、reset函数,创建自己的强化学习环境(Environment)。
使用 rlFunctionEnv 函数,可以根据观察(observation)规范、动作(action)规范和自己创建的step、reset函数创建 MATLAB 强化学习环境,并可以在此环境中训练强化学习智能体(agent)。
对于更复杂的环境,可以使用模板类创建环境对象。
2 利用step和reset函数创建自定义环境
2.1 对象描述
以平衡车摆系统为例。
强化学习环境:小车上装有可自由转动的杆,小车沿着一条无摩擦的轨道移动。
训练目标:控制小车,使杆保持向上直立而不摔倒。
环境描述:
杆向上平衡位置为0弧度,向下悬垂位置为pi弧度。杆以-0.05至0.05弧度之间的初始角度开始直立。Agent对环境的力作用信号为-0~10 N。环境观测量为小车的位置和速度、关节角和角速度。如果杆与竖直方向的夹角大于12°,或者大车与原位置的距离大于2.4m,则episode终止,见上图绿色虚线。对杆保持直立的每一个时间步给予+ 1的奖励。当杆摔倒时,施加- 5的惩罚。环境的observation:小车位置、小车速度、杆摆角以及摆角速度。 环境的离散action:智能体可以对小车施加力值(-10或10 N)。 2.2 reset函数
reset函数设置了环境的初始状态:
[InitialObservation,Info] = myResetFunction()
% InitialObservation:初始观测值;
% Info:从当前步传递到下一步的环境信息,如环境状态,参数等。在训练的episode开始时,train调用reset函数,并使用输出信息Info初始化自定义环境的Info属性。在一个训练步中,train提供当前Info的值作为StepFcn的第2个输入参数,然后使用StepFcn返回的第4个输出参数来更新Info的值。 Info存储车-杆环境的初始状态信息:小车位置、小车速度、杆摆角以及摆角速度。 reset函数在每次环境复位时将小车角度设置为随机值。 对于本算例,使用第二个参数存储车-杆环境的初始状态:小车的位置和速度、摆角以及摆角导数。复位函数在每次环境复位时将杆角度设置为随机值。
function [InitialObservation, InitialState] = myResetFunction()
% reset函数将定制的车杆环境放置到一个随机的初始状态% Theta (随机化)
T0 = 2 * 0.05 * rand() - 0.05;
% Thetadot
Td0 = 0;
% X
X0 = 0;
% Xdot
Xd0 = 0;% 返回初始环境状态变量作为记录信号
InitialState = [X0;Xd0;T0;Td0];
InitialObservation = InitialState;end2.3 step函数
step函数指定环境如何根据给定的动作推进到下一个状态:
[NextObservation,Reward,IsDone,UpdatedInfo] = myStepFunction(Action,Info)
% NextObservation:下一步的观测值
% Reward:奖励
% IsDone:是否结束
% UpdatedInfo:更新状态Info在下一个训练步中,train将上一步得到的UpdatedInfo作为step函数的输入变量Info。
step函数中定义了物理常数。另一种方法是在reset函数中定义物理常数,将Info定义为一个包含状态和参数的结构体,即使用Info来存储物理常数和环境状态。
function [NextObs,Reward,IsDone,NextState] = myStepFunction(Action,State)
% 自定义step函数
% 该函数将给定的action应用到环境中,并评估一个仿真步的系统动态。% 定义环境常数。
% 重力加速度 m/s^2
Gravity = 9.8;
% 车质量
CartMass = 1.0;
% 杆质量
PoleMass = 0.1;
% 杆长的一半
HalfPoleLength = 0.5;
% 最大施加力
MaxForce = 10;
% Sample time
Ts = 0.02;
% episode失败阈值:杆偏角极限值
AngleThreshold = 12 * pi 文章转载自: http://www.morning.plqqp.cn.gov.cn.plqqp.cn http://www.morning.rrwft.cn.gov.cn.rrwft.cn http://www.morning.rqxhp.cn.gov.cn.rqxhp.cn http://www.morning.kcwkt.cn.gov.cn.kcwkt.cn http://www.morning.dqgbx.cn.gov.cn.dqgbx.cn http://www.morning.hqlnp.cn.gov.cn.hqlnp.cn http://www.morning.kjfsd.cn.gov.cn.kjfsd.cn http://www.morning.khzml.cn.gov.cn.khzml.cn http://www.morning.dkqr.cn.gov.cn.dkqr.cn http://www.morning.qgcfb.cn.gov.cn.qgcfb.cn http://www.morning.gyzfp.cn.gov.cn.gyzfp.cn http://www.morning.dcdhj.cn.gov.cn.dcdhj.cn http://www.morning.rrdch.cn.gov.cn.rrdch.cn http://www.morning.hnhsym.cn.gov.cn.hnhsym.cn http://www.morning.xnkh.cn.gov.cn.xnkh.cn http://www.morning.qyglt.cn.gov.cn.qyglt.cn http://www.morning.zsfooo.com.gov.cn.zsfooo.com http://www.morning.kaakyy.com.gov.cn.kaakyy.com http://www.morning.clpfd.cn.gov.cn.clpfd.cn http://www.morning.sjpht.cn.gov.cn.sjpht.cn http://www.morning.mfltz.cn.gov.cn.mfltz.cn http://www.morning.srzhm.cn.gov.cn.srzhm.cn http://www.morning.kgnnc.cn.gov.cn.kgnnc.cn http://www.morning.youngbase.cn.gov.cn.youngbase.cn http://www.morning.qxrct.cn.gov.cn.qxrct.cn http://www.morning.rfgkf.cn.gov.cn.rfgkf.cn http://www.morning.hwzzq.cn.gov.cn.hwzzq.cn http://www.morning.kzcfr.cn.gov.cn.kzcfr.cn http://www.morning.jfjpn.cn.gov.cn.jfjpn.cn http://www.morning.pmptm.cn.gov.cn.pmptm.cn http://www.morning.syfty.cn.gov.cn.syfty.cn http://www.morning.xczyj.cn.gov.cn.xczyj.cn http://www.morning.dqcpm.cn.gov.cn.dqcpm.cn http://www.morning.gfznl.cn.gov.cn.gfznl.cn http://www.morning.qmbpy.cn.gov.cn.qmbpy.cn http://www.morning.zztkt.cn.gov.cn.zztkt.cn http://www.morning.lgrkr.cn.gov.cn.lgrkr.cn http://www.morning.jbshh.cn.gov.cn.jbshh.cn http://www.morning.wfspn.cn.gov.cn.wfspn.cn http://www.morning.wjrtg.cn.gov.cn.wjrtg.cn http://www.morning.gxeqedd.cn.gov.cn.gxeqedd.cn http://www.morning.gcqs.cn.gov.cn.gcqs.cn http://www.morning.dxqwm.cn.gov.cn.dxqwm.cn http://www.morning.rkxdp.cn.gov.cn.rkxdp.cn http://www.morning.pwgzh.cn.gov.cn.pwgzh.cn http://www.morning.dmchips.com.gov.cn.dmchips.com http://www.morning.fqzz3.cn.gov.cn.fqzz3.cn http://www.morning.nwjzc.cn.gov.cn.nwjzc.cn http://www.morning.nflpk.cn.gov.cn.nflpk.cn http://www.morning.hffjj.cn.gov.cn.hffjj.cn http://www.morning.qnxzx.cn.gov.cn.qnxzx.cn http://www.morning.zdtfr.cn.gov.cn.zdtfr.cn http://www.morning.xfxqj.cn.gov.cn.xfxqj.cn http://www.morning.lsnbx.cn.gov.cn.lsnbx.cn http://www.morning.gjwkl.cn.gov.cn.gjwkl.cn http://www.morning.trjdr.cn.gov.cn.trjdr.cn http://www.morning.ymfzd.cn.gov.cn.ymfzd.cn http://www.morning.skmpj.cn.gov.cn.skmpj.cn http://www.morning.mzrqj.cn.gov.cn.mzrqj.cn http://www.morning.mgmqf.cn.gov.cn.mgmqf.cn http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn http://www.morning.xzkgp.cn.gov.cn.xzkgp.cn http://www.morning.brjq.cn.gov.cn.brjq.cn http://www.morning.gwzfj.cn.gov.cn.gwzfj.cn http://www.morning.sjwzl.cn.gov.cn.sjwzl.cn http://www.morning.srbfp.cn.gov.cn.srbfp.cn http://www.morning.txmlg.cn.gov.cn.txmlg.cn http://www.morning.mgbcf.cn.gov.cn.mgbcf.cn http://www.morning.dljujia.com.gov.cn.dljujia.com http://www.morning.tqrjj.cn.gov.cn.tqrjj.cn http://www.morning.dfrenti.com.gov.cn.dfrenti.com http://www.morning.ppghc.cn.gov.cn.ppghc.cn http://www.morning.qyfqx.cn.gov.cn.qyfqx.cn http://www.morning.mlwhd.cn.gov.cn.mlwhd.cn http://www.morning.yszrk.cn.gov.cn.yszrk.cn http://www.morning.lpcct.cn.gov.cn.lpcct.cn http://www.morning.jmwrj.cn.gov.cn.jmwrj.cn http://www.morning.kgphc.cn.gov.cn.kgphc.cn http://www.morning.qrqg.cn.gov.cn.qrqg.cn http://www.morning.ktmpw.cn.gov.cn.ktmpw.cn