您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. ContinuousControlWithDDPG-源码

  2. 用DDPG进行连续控制
  3. 所属分类:其它

  1. drl_p2_continuous-control-源码

  2. drl_p2_continuous-control 该存储库的内容表示“ Udacity深度强化学习”课程的项目2。 在此项目中,我们正在解决由控制双关节手臂的运动组成的触手环境。 通过在此双关节臂上执行操作,我们可以了解最佳控制策略。 为了执行此训练,我们使用深度确定性策略梯度(DDPG)算法。 我们在多主体情况下解决该算法,目标是使用20个主体,至少连续100次情节维持+30的奖励。 可以通过打开笔记本的Continuous_Control.ipynb并运行所有单元格来运行代码。 多代
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:471kb
    • 提供者:weixin_42128315
  1. DDPG连续控制-源码

  2. Unity带有RL的Reacher环境解决方案 介绍 该项目是用于解决Unity v0.4环境的深度确定性策略梯度强化学习算法的实现。 环境细节 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,代理的目标是将其在目标位置的位置保持尽可能多的时间步长。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 该
  3. 所属分类:其它

  1. 带有MADDPG的网球:在Pytorch上实现MADDPG-源码

  2. 项目3:合作与竞争 介绍 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 下图显示了最终的奖励进度。 环境在1820集中得到解决 算法: 为了解决此环境,我实现了Multi-DD
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:45mb
    • 提供者:weixin_42099151
  1. 多主体强化学习-源码

  2. Udacity深度强化学习纳米学位-项目3:合作与竞争 介绍 对于这个Udacity项目,我使用了一个DDPG代理来解决多代理协作环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。
  3. 所属分类:其它

  1. ddpg-aigym:具有深度强化学习的连续控制-在OpenAI Gym环境中实现的深度确定性策略梯度(DDPG)算法-源码

  2. ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现(Lillicrap等人 。) 如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间 一旦训练 学习曲线 InvertedPendulum-v1环境的学习曲线。 依存关系 Tensorflow(在tensorflow版本0.11.0rc0 ) OpenAi体育馆 Mujo
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:322kb
    • 提供者:weixin_42162216
  1. Continuous-Control:项目二-源码

  2. 连续控制 项目2:训练深度确定性策略梯度-DDPG代理将双臂移动到目标位置。 1.环境 在这个项目中,我使用了从Unity ML-Agents工具箱改编而来的Reacher Unity环境。 此环境由Udacity提供。 与Unity环境不同,这里仅由一个双关节臂组成,而不是在Reacher Unity环境中由十个臂组成。 下面显示了一个未经训练的行动人员,其中绿色区域是目标: 1.1状态空间 状态空间具有33个尺寸,分别对应于手臂的位置,旋转,速度和角速度。 1.2行动空间 每个动作是一个带有
  3. 所属分类:其它

    • 发布日期:2021-03-30
    • 文件大小:715kb
    • 提供者:weixin_42134051