您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Python-DeepReinforcementLearning教程

  2. 包含与OReilly 2017 NYC AI大会上提供的“Deep Reinforcement Learning Tutorial”相关的Jupyter笔记本
  3. 所属分类:其它

    • 发布日期:2019-08-11
    • 文件大小:23kb
    • 提供者:weixin_39840914
  1. Deep Reinforcement Learning

  2. Deep Reinforcement Learning, Frontiers of Artificial Intelligence, 2019
  3. 所属分类:机器学习

    • 发布日期:2019-07-04
    • 文件大小:15mb
    • 提供者:weixin_38290023
  1. deep reinforcement learning

  2. 如有请侵权,请联系删除。深度学习入门 资料,来自于教授yuxi li关于reinforcement learning 的简介,简约而不简单,适合入门 使用,为全英版。
  3. 所属分类:深度学习

    • 发布日期:2019-04-05
    • 文件大小:1mb
    • 提供者:yangwangnndd
  1. DeepReinforcementLearning:pytorch中的深度强化学习算法!!-源码

  2. DeepReinforcementLearning:pytorch中的深度强化学习算法!!
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:26kb
    • 提供者:weixin_42117116
  1. DeepReinforcementLearning:用于在Python中进行深度强化学习的AlphaZero方法的副本-源码

  2. 深度强化学习 Python中AlphaZero方法的副本 有关算法和运行说明的摘要,请参见本文。
  3. 所属分类:其它

    • 发布日期:2021-02-27
    • 文件大小:272kb
    • 提供者:weixin_42129797
  1. ContinuousControl-DeepReinforcementLearning:深度强化学习纳米级的第二个项目-源码

  2. 深度强化学习纳米学位-项目2:持续控制 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。 每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。 动作向量中的每个条目都应为-1和1之间的数字。 该任务是情节性的,并且为了解决环境,您的代理必须在100个连续情节中获得+30的平均得分。 开始 克隆此仓库。
  3. 所属分类:其它

  1. DeepReinforcementLearning-DDPG-for-RoboticsControl:这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,以训练4自由度机械臂达到移动目标。 动作空间是连续的,学习的特工为机器人输

  2. DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。 动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。 环境 一个包含20个相同代理的,每个代理都有其自己的环境副本。 在这种环境下,双臂可以移动到目标位置。 对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。 因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。 观察空间由33个变量组成,分别对应于手臂的位置
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:20mb
    • 提供者:weixin_42141437
  1. DeepReinforcementLearning:深度RL实施。 在pytorch中实现的DQN,SAC,DDPG,TD3,PPO和VPG。 经过测试的环境:LunarLander-v2和Pendulum-v0-源码

  2. 使用Pytorch实现的深度RL算法 算法列表: 关于深入探讨 实验结果: 算法 离散环境:LunarLander-v2 连续环境:Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法: 只需直接运行文件/算法。 在我学习算法时,它们之间没有通用的结构。 不同的算法来自不同的来源。 资源: 未来的项目: 如果有时间,我将为使用RL的电梯添加一个简单的程序。 更好的图形
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:391kb
    • 提供者:weixin_42099070