本篇内容主要讲解“怎么使用actor-critic方法来控制CartPole-V0游戏”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么使用actor-critic方法来控制CartPole-V0游戏”吧!在一个光滑的轨道上有个推车,杆子垂直微置在推车上,随时有倒的风险。系统每次对推车施加向左或者向右的力,但我们的目标是让杆子保持直立。杆子保持直立的每个时间单位都会获得 +1 的奖励。但是当杆子与垂直方向成 15 度以上的位置,或者推车偏离中心点超过 2.4 个单位后,这一轮局游戏结束。因此我们可以获得的最高回报等于 200 。我们这里就是要通过使用 PPO 算法来训练一个强化学习模型 actor-critic ,通过对比模型训练前后的游戏运行 gif 图,可以看出来我们训练好的模型能长时间保持杆子处于垂直状态。当 agent 采取行动并在环境中移动时,它在观察到的环境状态的情况下,学习两个可能的输出:接下来最合适的一个操作,actor 负责此部分输出。未来可能获得的奖励总和,critic 负责此部分的输出。actor 和 critic 通过不断地学习,以便使得 agent 在游戏中最终获得的奖励最大,这里的 agent 就是那个小车。这部分代码主要有:(1)导入所需的Python库:gym、numpy、tensorflow 和 keras。(2)设置整个环境的超参数:种子、折扣因子和每个回合的最大步数。(3)创建 CartPole-v0 环境,并设置种子。(4)定义一个非常小的值 eps ,表示的机器两个不同的数字之间的最小差值,用于检验数值稳定性。(1)Actor:将环境的状态作为输入,返回操作空间中每个操作及其概率值,其实总共只有两个操作,往左和往右。(2)Critic:将环境的状态作为输入,返回未来奖励综合的估计。(3)在这里网络结构中我们在一开始接收 inputs 之后,我们的 Actor 和 Critic 共用了中间的部分隐藏层 common 层,然后在一个输出分支上连接了一个全连接进行动作分类作为 action ,另一个分支上连接了一个全连接层进行未来奖励计算作为 critic 。设置训练所需要的优化器,以及各种参数来记录每个时间步上的数据。一直训练下去,直到满足奖励大于 195免费云主机域名 才会停下训练过程。打印:在第 10 轮游戏中获得奖励: 11.17 分
在第 20 轮游戏中获得奖励: 17.12 分
…
在第 170 轮游戏中获得奖励: 155.02 分
在第 180 轮游戏中获得奖励: 171.67 分
…
在第 220 轮游戏中获得奖励: 193.74 分
奖励超过 195 ,训练结束到此,相信大家对“怎么使用actor-critic方法来控制CartPole-V0游戏”有了更深的了解,不妨来实际操作一番吧!这里是百云主机网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
这篇文章主要介绍“php判断字段是否不为空的常见方法有哪些”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“php判断字段是否不为空的常见方法有哪些”文章能帮助大家解决问题。 方法一:使用isset()函数isset()函…
免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。