当前位置: 首页 > news >正文

佳木斯市建设局网站网页制作和网站开发实验报告

佳木斯市建设局网站,网页制作和网站开发实验报告,微信分销系统多层,设计师万能导航网站基础知识回顾 1.强化学习#xff08;Agent、Environment) 在 RL 中#xff0c;代理通过不断与环境交互、以试错的方式进行学习#xff0c;在不确定性下做出顺序决策#xff0c;并在探索#xff08;新领域#xff09;和开发#xff08;使用从经验中学到的知识#xff…基础知识回顾 1.强化学习Agent、Environment) 在 RL 中代理通过不断与环境交互、以试错的方式进行学习在不确定性下做出顺序决策并在探索新领域和开发使用从经验中学到的知识之间取得平衡。   探索利用问题 已经使用stable_baseline3做过一些列实验sb3这个库相对简单但是训练起来感觉并不是很好 ElegantRL 在 Actor-Critic 框架下实现 DRL 算法其中 Agent又名 DRL 算法由 Actor 网络和 Critic 网络组成。由于代码结构的完整性和简单性用户能够轻松自定义自己的代理。 该开源库的框架很清楚的描述了运行流程Run.py来实现Agent和Environment的交互 ElegantRL 的文件结构如图 1 所示 Env.py它包含代理与之交互的环境。 用于健身房环境修改的 PreprocessEnv 类。以自建股票交易环境为例进行用户自定义。 2. Net.py有三种类型的网络 Q-NetActor Network、评论家网络 每个 API 都包括一个用于继承的基本网络和一组用于不同算法的变体。 3. Agent.py它包含不同 DRL 算法的代理。 4. Run.py提供训练和评估过程的基本功能 参数初始化 /训练环 /计算器。 作为高级概述文件之间的关系如下。在 Env.py 中初始化环境在 Agent.py 中初始化代理。该代理是使用 Net.py 中的 Actor 和 Critic 网络构建的。在 Run.py 的每个训练步骤中代理与环境交互生成存储到 Replay Buffer 中的转换。然后代理从 Replay Buffer 获取转换以训练其网络。每次更新后评估器都会评估代理的性能如果性能良好则会保存代理。 该库每个DRL算法代理都遵循其基类中的层次结构 如图 2 所示DQN 系列算法的继承层次结构如下 AgentDQN标准 DQN Agent。AgentDoubleDQN继承自 AgentDQN 的双 DQN 代理具有两个用于减少高估的 Q-Net。AgentDuelingDQN继承自 AgentDQN 的 Q 值计算不同 DQN 代理。AgentD3QNAgentDoubleDQN 和 AgentDuelingDQN 的组合继承自 AgentDoubleDQN。 class AgentBase:def init(self); def select_action(states); # states (state, …) def explore_env(env, buffer, target_step, reward_scale, gamma);def update_net(buffer, max_step, batch_size, repeat_times); def save_load_model(cwd, if_save);def soft_update(target_net, current_net); class AgentDQN: def init(net_dim, state_dim, action_dim); def select_action(states); # for discrete action space def explore_env(env, buffer, target_step, reward_scale, gamma); def update_net(buffer, max_step, batch_size, repeat_times);def save_or_load_model(cwd, if_save); class AgentDuelingDQN(AgentDQN): def init(net_dim, state_dim, action_dim);class AgentDoubleDQN(AgentDQN): def init(self, net_dim, state_dim, action_dim);def select_action(states); def update_net(buffer, max_step, batch_size, repeat_times); class AgentD3QN(AgentDoubleDQN): # D3QN: Dueling Double DQN def init(net_dim, state_dim, action_dim); 在构建 DRL 代理时应用这样的层次结构可以有效地提高轻量级和有效性。用户可以在类似的流程中轻松设计和实施新代理。 基本上一个智能体有两个基本功能数据流如图所示 explore_env它允许代理与环境交互并为训练网络生成转换。update_net 它首先从 Replay Buffer 中获取一批 transitions然后使用反向传播训练网络。 训练piple train代理的两个主要步骤 初始化 hyper-parameters 参数 args 的 Json 参数。env PreprocessEnv 创建一个环境以 OpenAI gym 格式。agent AgentXXX 为 DRL 算法创建代理。evaluator Evaluator 评估并存储经过训练的模型。buffer ReplayBuffer 存储过渡。 2. 然后训练过程由 while 循环控制 agent.explore_env...代理在 Target Steps 中探索环境生成转换并将其存储到 ReplayBuffer 中。agent.update_net...代理使用 ReplayBuffer 中的批处理来更新网络参数。evaluator.evaluate_save...评估代理的性能并保持经过训练的模型获得最高分。 while 循环将在满足条件时终止例如达到目标分数、最大步数或手动中断。 阅读ElegantRL框架从Helloworld开始 1.正如这段所说可以自己重新创建一个folder并将net/agent/config/env/run.py文件加入并加入tutorial_*.py然后运行tutorial。在代码中如下 2.同时也可以运行因为从代码发现实际上是一样的不过是将多个模块的代码集成到了一个py文件中 了解结构之后从第一种方式去看代码因为分成了不同模块更符合之后编写自己的环境以及接入算法的工作 从这个教程上可以看到基本流程就是1.初始化智能体2.初始化环境3.配置参数的设定使用Config 4.训练  因此针对环境这一块需要去再看看gym。目前的疑问在于如果env_class不是gym.make。 env_class(**kwargs_filter(env_class.__init__, env_args.copy())) 该怎么使用 看了GPT之后明白了如果是else情况这里的env_class直接就相当于自定义的环境类或则是来自其他库的非gym.make环境类  GYM 然后这里也回顾一下gym import gymenv  gym.make(CartPole-v0)env.reset()for _ in range(1000):    env.render()    env.step(env.action_space.sample()) # take a random actionenv.close() 因为基于gym创建环境后可以注册到gym服务器因此使用的时候使用注册名即可生成 关于Observation Space 和 Action Space, 根据自己的应用场景设定 对于 step 与返回的 obs, reward, done 与 info 继承gym写环境就相当于一套模板__init__(self,args), step(),reset() 这三个必须的 import gymenv  gym.make(CartPole-v0)env.reset()for _ in range(10):    env.render()    observation, reward, done, info  env.step(env.action_space.sample()) # take a random action    print(observation:{}, reward:{}, done:{}, info:{}.format(observation, reward, done, info))env.close() 上面的就是一个经典的 agent-environment 循环。agent 选择一个 action环境返回一个observation 和 reward。就是如下图所示。 Gym进阶使用 Wrappers其实就相当于装饰器在不改变原来的功能基础上可能对某些功能做一些增加 这里如何调用了def action,在gym.ActionWrappr里面封装的动作输入之后实际上调用的是 RandomActionWrapper 中封装的 step 方法而 RandomActionWrapper 继承自 gym.ActionWrapper。在这个过程中动作会经过自定义的 action() 方法进行预处理。最后返回return self.env.step(final_action) 注册和删除接上文代码中的部分如何自定义环境后注册到gym render()两种操作video和matplotlib 毕业设计按照后者做的然后绘图代码基本上在render里面实现test的时候并没有放到循环中实现。但是这里来开plt.imshow()完全可以放到循环中从而减少环境中显示的延迟 整体看下来gym目前还是比较理解的就是通过继承这个父类然后自定义自己的环境还可以通过wrapper在自定义环境类生成示例后进行功能添加装饰器的功能 关于自定义环境注册上述文本只提供了已有环境修改参数后的注册至于如何针对自己自定义环境的注册看下面的描述 如何在 Gym 中注册自定义环境 - 知乎 (zhihu.com) 构建自己的gym训练环境 巨详细_gym自定义环境-CSDN博客 更加深入理解gym可以查看官方文档已经更换团队维护import gymnasium as gym Basic Usage - Gymnasium Documentation (farama.org) Basic Usage Gymnasium is a project that provides an API for all single agent reinforcement learning environments, and includes implementations of common environments: cartpole, pendulum, mountain-car, mujoco, atari, and more. 这里已经说了这个API包括四个最关键的函数 gymnasium.envs.registry.keys() 就是一个字典查看键的操作可以看到 dict_keys([CartPole-v0, CartPole-v1, MountainCar-v0, MountainCarContinuous-v0, Pendulum-v1, Acrobot-v1, phys2d/CartPole-v0, phys2d/CartPole-v1, phys2d/Pendulum-v0, LunarLander-v2, LunarLanderContinuous-v2, BipedalWalker-v3, BipedalWalkerHardcore-v3, CarRacing-v2, Blackjack-v1, FrozenLake-v1, FrozenLake8x8-v1, CliffWalking-v0, Taxi-v3, tabular/Blackjack-v0, tabular/CliffWalking-v0, Reacher-v2, Reacher-v4, Pusher-v2, Pusher-v4, InvertedPendulum-v2, InvertedPendulum-v4, InvertedDoublePendulum-v2, InvertedDoublePendulum-v4, HalfCheetah-v2, HalfCheetah-v3, HalfCheetah-v4, Hopper-v2, Hopper-v3, Hopper-v4, Swimmer-v2, Swimmer-v3, Swimmer-v4, Walker2d-v2, Walker2d-v3, Walker2d-v4, Ant-v2, Ant-v3, Ant-v4, Humanoid-v2, Humanoid-v3, Humanoid-v4, HumanoidStandup-v2, HumanoidStandup-v4, GymV21Environment-v0, GymV26Environment-v0]) 环境构建完成之后插眼一下这个图很好可以用于答辩使用HH 但是存在的一个问题是之前env.step返回的好像是4元组 看了一下版本用的是0.29.1用的是5元组 我的调度任务中也是设置了终止状态和截断信号到该就是跑完600个TTI算终止然后在运行过程中不符合实际的调度时刻超过了600个TTI的50%可能就截止回合然后reset重启环境  这一部分也很重要本身是MIMO系统怎么把环境建模 动作空间可以 1.建模成Discrete(如果考虑每次只选择单个用户 2.MultiBinary考虑一次性选出用户子集目前使用 3.看论文也发现存在连续动作空间采样离散值在连续空间采样出多个用户那么也可以使用Box 4.如果能够做一个预分组也可以使用MultiDiscrete  3.4两者非常一致可看图片解释 包装环境和获得原环境  2.兼容性刚刚记得存在done的问题下一篇就设计了环境的兼容性大体意思就是说 1.以前的gym版本下注册的环境可以通过特殊的这个环境名或者wrapper来实现 2.对gymnasium低版本的环境也有参数compatibility来实现 这一节了解到了一个关键技巧Reset这一步中表明info也已用来存储一些重要指标和有效动作掩码。然后通过info中获取就可以比如说保存吞吐量或者公平性因为本身step返回的是奖励但是我们的奖励函数可能是多指标的组合这个时候就将多个指标通过info返回我们就可以用来分析训练的好坏。  同时这个动作掩码也提供了一种新思路 obs, reward, terminated, truncated, info env.step(action) 因为我只能根据obs_space给定的几个格式设置空间那么如果现在我的环境状态时[H,J]空间该怎么设置呢 我们可以只将H的shape设置为obs_space,对于j使用info来记录 day2.试验记录 遵循gym的custom环境创建格式将自己的环境已经搭建完成并实现了渲染。 同时也利用register将环境注册到了gym中 实现过程参考了官方文档和【强化学习系列】Gym库使用——创建自己的强化学习环境2拆解官方标准模型源码/规范自定义类打包自定义环境_gym库 强化学习-CSDN博客 简化后的一版环境实现的效果如下
文章转载自:
http://www.morning.ymjgx.cn.gov.cn.ymjgx.cn
http://www.morning.rwyd.cn.gov.cn.rwyd.cn
http://www.morning.kgltb.cn.gov.cn.kgltb.cn
http://www.morning.dzzjq.cn.gov.cn.dzzjq.cn
http://www.morning.ygqjn.cn.gov.cn.ygqjn.cn
http://www.morning.hfxks.cn.gov.cn.hfxks.cn
http://www.morning.mjqms.cn.gov.cn.mjqms.cn
http://www.morning.fqqcd.cn.gov.cn.fqqcd.cn
http://www.morning.mmkrd.cn.gov.cn.mmkrd.cn
http://www.morning.tgts.cn.gov.cn.tgts.cn
http://www.morning.gbpanel.com.gov.cn.gbpanel.com
http://www.morning.bpmfn.cn.gov.cn.bpmfn.cn
http://www.morning.lrflh.cn.gov.cn.lrflh.cn
http://www.morning.yrsg.cn.gov.cn.yrsg.cn
http://www.morning.xlclj.cn.gov.cn.xlclj.cn
http://www.morning.gywfp.cn.gov.cn.gywfp.cn
http://www.morning.qfzjn.cn.gov.cn.qfzjn.cn
http://www.morning.cjsrg.cn.gov.cn.cjsrg.cn
http://www.morning.nhgfz.cn.gov.cn.nhgfz.cn
http://www.morning.bkxnp.cn.gov.cn.bkxnp.cn
http://www.morning.mlntx.cn.gov.cn.mlntx.cn
http://www.morning.rlxg.cn.gov.cn.rlxg.cn
http://www.morning.hlxxl.cn.gov.cn.hlxxl.cn
http://www.morning.xbhpm.cn.gov.cn.xbhpm.cn
http://www.morning.sqqkr.cn.gov.cn.sqqkr.cn
http://www.morning.jwbnm.cn.gov.cn.jwbnm.cn
http://www.morning.rflcy.cn.gov.cn.rflcy.cn
http://www.morning.yxmcx.cn.gov.cn.yxmcx.cn
http://www.morning.fgppj.cn.gov.cn.fgppj.cn
http://www.morning.srrzb.cn.gov.cn.srrzb.cn
http://www.morning.rhmpk.cn.gov.cn.rhmpk.cn
http://www.morning.nkqrq.cn.gov.cn.nkqrq.cn
http://www.morning.nuobeiergw.cn.gov.cn.nuobeiergw.cn
http://www.morning.xxrwp.cn.gov.cn.xxrwp.cn
http://www.morning.wnywk.cn.gov.cn.wnywk.cn
http://www.morning.btqqh.cn.gov.cn.btqqh.cn
http://www.morning.yuminfo.com.gov.cn.yuminfo.com
http://www.morning.hjwxm.cn.gov.cn.hjwxm.cn
http://www.morning.hlhqs.cn.gov.cn.hlhqs.cn
http://www.morning.dbdmr.cn.gov.cn.dbdmr.cn
http://www.morning.qbksx.cn.gov.cn.qbksx.cn
http://www.morning.kjrp.cn.gov.cn.kjrp.cn
http://www.morning.wbnsf.cn.gov.cn.wbnsf.cn
http://www.morning.mgnrc.cn.gov.cn.mgnrc.cn
http://www.morning.bdsyu.cn.gov.cn.bdsyu.cn
http://www.morning.cwwbm.cn.gov.cn.cwwbm.cn
http://www.morning.lxfqc.cn.gov.cn.lxfqc.cn
http://www.morning.xrftt.cn.gov.cn.xrftt.cn
http://www.morning.txmkx.cn.gov.cn.txmkx.cn
http://www.morning.nba1on1.com.gov.cn.nba1on1.com
http://www.morning.dkbgg.cn.gov.cn.dkbgg.cn
http://www.morning.dfltx.cn.gov.cn.dfltx.cn
http://www.morning.bhrbr.cn.gov.cn.bhrbr.cn
http://www.morning.ydhck.cn.gov.cn.ydhck.cn
http://www.morning.qwzpd.cn.gov.cn.qwzpd.cn
http://www.morning.lxhgj.cn.gov.cn.lxhgj.cn
http://www.morning.pnmnl.cn.gov.cn.pnmnl.cn
http://www.morning.nkrmh.cn.gov.cn.nkrmh.cn
http://www.morning.tpqzs.cn.gov.cn.tpqzs.cn
http://www.morning.mgbcf.cn.gov.cn.mgbcf.cn
http://www.morning.nafdmx.cn.gov.cn.nafdmx.cn
http://www.morning.bnwlh.cn.gov.cn.bnwlh.cn
http://www.morning.pcgmw.cn.gov.cn.pcgmw.cn
http://www.morning.hqnsf.cn.gov.cn.hqnsf.cn
http://www.morning.guofenmai.cn.gov.cn.guofenmai.cn
http://www.morning.spfh.cn.gov.cn.spfh.cn
http://www.morning.mslhq.cn.gov.cn.mslhq.cn
http://www.morning.mkhwx.cn.gov.cn.mkhwx.cn
http://www.morning.hilmwmu.cn.gov.cn.hilmwmu.cn
http://www.morning.rfycj.cn.gov.cn.rfycj.cn
http://www.morning.nlcw.cn.gov.cn.nlcw.cn
http://www.morning.zbhfs.cn.gov.cn.zbhfs.cn
http://www.morning.jxhlx.cn.gov.cn.jxhlx.cn
http://www.morning.gpsrk.cn.gov.cn.gpsrk.cn
http://www.morning.rbjth.cn.gov.cn.rbjth.cn
http://www.morning.yfphk.cn.gov.cn.yfphk.cn
http://www.morning.lgnrl.cn.gov.cn.lgnrl.cn
http://www.morning.fydsr.cn.gov.cn.fydsr.cn
http://www.morning.bxczt.cn.gov.cn.bxczt.cn
http://www.morning.ljygq.cn.gov.cn.ljygq.cn
http://www.tj-hxxt.cn/news/278500.html

相关文章:

  • 配资网站开发是什么意思公司logo设计大全 图片欣赏
  • 网站上传面板wordpress获取分类列表标题
  • 手机网站的必要性微信视频制作小程序
  • 如何用 ftp上传网站wordpress用cdn文章无法更新
  • phpcms适合做什么网站毕业设计网站选题
  • easyui 网站设计要建网站怎么做
  • 做啥网站能挣钱深圳网站定制建设
  • 有做教育行业的招聘网站吗北京app网站建设价格
  • 温州网站优化案例涟水县建设局网站
  • 大连网站推广公司wordpress搭建知识库
  • 网站地图有什么作用做俄罗斯外贸网站推广
  • 网站底部悬浮导航襄阳seo公司
  • 做视频的音乐哪里下载网站上海有哪些大公司
  • 站内推广方案网站添加百度地图导航
  • 网页设计 网站可以挣钱的设计网站
  • 企业微信网站开发文档东营网站建设天锐科技
  • 网站建设服务器的选择方案新乡集团网站建设
  • 宁波做网站有哪些公司公司电子商务网站建设市场
  • 青岛网站建设服务平台h5做招聘网站
  • 网站运营怎么样做网站该读啥学校
  • 网站销售怎么做广州网站备案
  • 中山手机网站建设费用广告公司怎么做业务
  • python做网站前端网站定位方案
  • 住房和城市建设部网站网络运营推广
  • 爱站网能不能挖掘关键词营销方案模板
  • 酒店 公司 安徽 网站建设网站功能模块 分析
  • 摄影师都在哪些网站发布作品赤峰网站设计公司
  • 如何做照片ppt模板下载网站做任务的正规网站
  • 海口企业建站系统模板沈阳网站建设报价
  • 网站建设企业谁家好asp网站建设项目实训