您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Python-深度强化学习PyTorch实现集锦

  2. This repository contains most of classic deep reinforcement learning algorithms, including - DQN, DDPG, A3C, PPO, TRPO. (More algorithms are still in progress)
  3. 所属分类:其它

  1. Algorithm-Deep-reinforcement-learning-with-pytorch.zip

  2. Algorithm-Deep-reinforcement-learning-with-pytorch.zip,Pythorch实现DQN、AC、Acer、A2C、A3C、PG、DDPG、TRPO、PPO、SAC、TD3和….,算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
  3. 所属分类:其它

    • 发布日期:2019-09-17
    • 文件大小:69mb
    • 提供者:weixin_38744207
  1. Algorithm-reinforcement-learning-algorithms.zip

  2. Algorithm-reinforcement-learning-algorithms.zip,此存储库包含大多数基于pytorch实现的经典深度强化学习算法,包括-dqn、ddqn、决斗网络、ddpg、a3c、ppo、trpo。(更多算法仍在进行中),算法是为计算机程序高效、彻底地完成任务而创建的一组详细的准则。
  3. 所属分类:其它

  1. pytorch-ddpg, 利用PyTorch实现深度确定策略梯度( DDPG )的实现.zip

  2. pytorch-ddpg, 利用PyTorch实现深度确定策略梯度( DDPG )的实现 在 PyTorch 上的深度确定策略渐变概述这是使用 PyTorch 实现的深度确定策略渐变的实现。 utilities缓冲缓冲区和随机进程等实用程序的一部分来自 keras-rl 。 Contributes非常受欢迎。依赖项p
  3. 所属分类:其它

  1. RLSimpleBaselines:强化学习算法的简单PyTorch实现-源码

  2. 强化学习简单基准 “简单基准”旨在作为受OpenAI Spinning Up启发的信息技术学习的教育资源。 简单基准是PyTorch的实现。 表格方法 状态 动态编程 :check_mark: 蒙特卡洛 :check_mark: 时间差异 :check_mark: 函数Approheavy_check_markimators 状态 dqn :check_mark: 加强 :check_mark: a2c :check_mark: ddpg :check_mar
  3. 所属分类:其它

    • 发布日期:2021-03-22
    • 文件大小:607kb
    • 提供者:weixin_42103587
  1. sim2real4real:^-源码

  2. 基于图像的RL与Asym Actor评论家 这是DDPG +和的pytorch实现 要求 Python= 3.6 openai-gym(支持mujoco200) mujoco-py最新版本 pytorch最新版本 mpi4py最新版本 指令运行代码 run2.sh,run.sh和run3.sh文件由运行各种模型的代码组成。 播放演示 python demo.py --env-name= 下载预训练的模型 请从下载它们,然后将saved_models放在当前文件夹下。 结果 训练表现 通过使
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:25mb
    • 提供者:weixin_42181319
  1. DRLib:DRLib:一个简洁的深度强化学习库,将HER和PER集成为几乎不符合政策的RL算法-源码

  2. DRLib:简洁的深度强化学习库,几乎将所有非政策性RL算法与HER和PER集成在一起。 简洁的深度强化学习库,几乎将所有非政策性RL算法与HER和PER集成在一起。 该库是基于的代码编写的,可以使用tensorflow或pytorch来实现。 与旋转相比,多进程和实验性网格包装已被删除,易于应用。 另外,我们库中的代码很方便用pycharm调试〜 项目特点: tf1和pytorch两个版本的算法,前者快,另外新,任君选择; 在spinup的基础上,封装了DDPG,TD3,SAC等主流强化算
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:140kb
    • 提供者:weixin_42116794
  1. 带有MADDPG的网球:在Pytorch上实现MADDPG-源码

  2. 项目3:合作与竞争 介绍 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 下图显示了最终的奖励进度。 环境在1820集中得到解决 算法: 为了解决此环境,我实现了Multi-DD
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:45mb
    • 提供者:weixin_42099151
  1. DeepReinforcementLearning:深度RL实施。 在pytorch中实现的DQN,SAC,DDPG,TD3,PPO和VPG。 经过测试的环境:LunarLander-v2和Pendulum-v0-源码

  2. 使用Pytorch实现的深度RL算法 算法列表: 关于深入探讨 实验结果: 算法 离散环境:LunarLander-v2 连续环境:Pendulum-v0 DQN -- VPG -- DDPG -- TD3 -- SAC -- PPO -- 用法: 只需直接运行文件/算法。 在我学习算法时,它们之间没有通用的结构。 不同的算法来自不同的来源。 资源: 未来的项目: 如果有时间,我将为使用RL的电梯添加一个简单的程序。 更好的图形
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:391kb
    • 提供者:weixin_42099070
  1. 智能校准:深度强化学习,用于射电望远镜的智能校准。 自动超参数调整-源码

  2. 智能校准 在射电望远镜的标定以及其他数据处理管道(例如弹性网回归)中使用强化学习进行超参数调整。 论文随附的代码。 RL代理代码基于。 使用openai.gym在PyTorch中实现。 弹性净回归 运行main_ddpg.py或main_td3.py以使用DDPG或TD3。 包含的文件有: autograd_tools.py :用于计算雅可比矩阵,反黑森州矢量积等的实用程序。 enetenv.py :openai.gym环境 enet_td3.py代理 enet_ddpg.py :D
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:499kb
    • 提供者:weixin_42116805
  1. minimalRL:用最少的代码行实现基本的RL算法! (基于火炬)-源码

  2. 最小RL 用最少的代码行实现基本的RL算法! (基于PyTorch) 每种算法都在一个文件中完成。 每个文件的长度最多为100〜150行代码。 即使没有GPU,也可以在30秒内训练每种算法。 Env固定为“ CartPole-v1”。 您可以只关注实现。 演算法 (67行) (98行) (112行,包括重放内存和目标网络) (119条线,包括GAE) (145行,包括OU噪声和软目标更新) (129条线) (149条线) (188条线) (171行)已添加
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:18kb
    • 提供者:weixin_42121725
  1. RecNN:围绕pytorch 1.7构建的增强推荐工具包-源码

  2. 这是我的学校项目。 它侧重于强化学习以进行个性化新闻推荐。 主要区别在于,它试图通过动态生成的项目嵌入来解决在线非政策学习。 我想使用SOTA算法创建一个库,以加强学习建议,并提供您喜欢的抽象级别。 :bar_chart: 这些功能可以总结为 根据您的决定进行抽象:您可以导入整个算法(例如DDPG)并将其告诉ddpg.learn(batch),可以分别导入网络和学习功能,为任务创建自定义加载程序,也可以自己定义所有内容。 示例不包含任何垃圾代码或变通办法:纯模型定义和算法本身在一个文件中。
  3. 所属分类:其它

  1. torchrl:强化学习算法的Pytorch实现(软演员评论员(SAC)DDPG TD3 DQN A2C PPO TRPO)-源码

  2. 火炬RL RL方法的Pytorch实现 支持具有连续和离散动作空间的环境。 支持具有1d和3d观察空间的环境。 支持多进程环境 要求 一般要求 火炬1.7 健身房(0.10.9) Mujoco(1.50.1) 列表(用于日志) tensorboardX(日志文件输出) 张量板要求 Tensorflow:启动tensorboard或读取tf记录中的日志 安装 使用use environment.yml创建虚拟环境 conda create -f environment.ym
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:170kb
    • 提供者:weixin_42123191
  1. 带有火炬的深度增强学习:DQN,AC,ACER,A2C,A3C,PG,DDPG,TRPO,PPO,SAC,TD3和PyTorch实施...-源码

  2. 状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorc
  3. 所属分类:其它

  1. 强化学习算法:此存储库包含大多数基于pytorch实现的经典深度强化学习算法,包括-DQN,DDQN,Dualling Network,DDPG,SAC,A2C,PPO,TRPO。 (更多算法仍在进行中)-源码

  2. 深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangu
  3. 所属分类:其它

  1. simrl:PyTorch中RL算法的简单实现-源码

  2. Simrl PyTorch中RL算法的简单实现。 支持的算法 PPO TRPO DDPG DQN A3C SAC
  3. 所属分类:其它

    • 发布日期:2021-03-30
    • 文件大小:18kb
    • 提供者:weixin_42126399
  1. MP-DQN:论文的源代码-Source code learning

  2. 多通道深度Q网络 该存储库包括用于参数化动作空间MDP的几种强化学习算法: P-DQN MP-DQN SP-DQN PA-DDPG 豪 Q-PAMDP 多遍深层Q网络(MP-DQN)通过使用几次遍历(并行批处理)将动作参数输入分配到Q网络来解决P-DQN的过度参数化问题。 拆分深度Q网络(SP-DQN)是一种慢得多的解决方案,它使用具有/不具有共享特征提取层的多个Q网络。 还为P-DQN提供了加权索引的动作参数损失函数。 依存关系 Python 3.5+(已通过3.5和3.6
  3. 所属分类:其它

    • 发布日期:2021-03-25
    • 文件大小:63kb
    • 提供者:weixin_42166626