搜索资源 - DDPG连续控制-源码 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - DDPG连续控制-源码

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

ContinuousControlWithDDPG-源码
用DDPG进行连续控制
所属分类：其它
- 发布日期：2021-03-16
- 文件大小：3mb
- 提供者：weixin_42176612

drl_p2_continuous-control-源码
drl_p2_continuous-control 该存储库的内容表示“ Udacity深度强化学习”课程的项目2。在此项目中，我们正在解决由控制双关节手臂的运动组成的触手环境。通过在此双关节臂上执行操作，我们可以了解最佳控制策略。为了执行此训练，我们使用深度确定性策略梯度（DDPG）算法。我们在多主体情况下解决该算法，目标是使用20个主体，至少连续100次情节维持+30的奖励。可以通过打开笔记本的Continuous_Control.ipynb并运行所有单元格来运行代码。多代
所属分类：其它
- 发布日期：2021-03-13
- 文件大小：471kb
- 提供者：weixin_42128315

DDPG连续控制-源码
Unity带有RL的Reacher环境解决方案介绍该项目是用于解决Unity v0.4环境的深度确定性策略梯度强化学习算法的实现。环境细节在这种环境下，双臂可以移动到目标位置。对于代理人的手在目标位置中的每一步，将提供+0.1的奖励。因此，代理的目标是将其在目标位置的位置保持尽可能多的时间步长。观察空间由33个变量组成，分别对应于手臂的位置，旋转，速度和角速度。每个动作是一个带有四个数字的向量，对应于适用于两个关节的扭矩。动作向量中的每个条目都应为-1和1之间的数字。该
所属分类：其它
- 发布日期：2021-02-18
- 文件大小：1mb
- 提供者：weixin_42153801

带有MADDPG的网球：在Pytorch上实现MADDPG-源码
项目3：合作与竞争介绍在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。下图显示了最终的奖励进度。环境在1820集中得到解决算法：为了解决此环境，我实现了Multi-DD
所属分类：其它
- 发布日期：2021-02-14
- 文件大小：45mb
- 提供者：weixin_42099151

多主体强化学习-源码
Udacity深度强化学习纳米学位-项目3：合作与竞争介绍对于这个Udacity项目，我使用了一个DDPG代理来解决多代理协作环境。在这种环境下，两名特工控制球拍在球网上弹跳球。如果探员将球击中网，则得到+0.1的奖励。如果探员让一个球击中地面或越界将球击中，则其收益为-0.01。因此，每个特工的目标是保持比赛中的球权。观察空间由8个变量组成，分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用，分别对应于朝向（或远离）网络的运动和跳跃。
所属分类：其它
- 发布日期：2021-02-13
- 文件大小：1mb
- 提供者：weixin_42129412

ddpg-aigym：具有深度强化学习的连续控制-在OpenAI Gym环境中实现的深度确定性策略梯度（DDPG）算法-源码
ddpg-aigym 深度确定性策略梯度 Tensorflow中深度确定性策略梯度算法的实现（Lillicrap等人。）如何使用 git clone https://github.com/stevenpjg/ddpg-aigym.git cd ddpg-aigym python main.py 培训期间一旦训练学习曲线 InvertedPendulum-v1环境的学习曲线。依存关系 Tensorflow（在tensorflow版本0.11.0rc0 ） OpenAi体育馆 Mujo
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：322kb
- 提供者：weixin_42162216

Continuous-Control:项目二-源码
连续控制项目2：训练深度确定性策略梯度-DDPG代理将双臂移动到目标位置。 1.环境在这个项目中，我使用了从Unity ML-Agents工具箱改编而来的Reacher Unity环境。此环境由Udacity提供。与Unity环境不同，这里仅由一个双关节臂组成，而不是在Reacher Unity环境中由十个臂组成。下面显示了一个未经训练的行动人员，其中绿色区域是目标： 1.1状态空间状态空间具有33个尺寸，分别对应于手臂的位置，旋转，速度和角速度。 1.2行动空间每个动作是一个带有
所属分类：其它
- 发布日期：2021-03-30
- 文件大小：715kb
- 提供者：weixin_42134051