您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 强化学习算法汇总.rar

  2. 代码中包含13种强化学习算法,所调用的环境不仅包含gym下面的一些简单环境,还可以自己设计环境(简单的迷宫游戏),简洁明了,适合算法学习的同学使用,其中A3C与PPO还涉及了并行运算的算法。
  3. 所属分类:机器学习

    • 发布日期:2019-12-31
    • 文件大小:3mb
    • 提供者:circleyuanquan
  1. rl_a3c_pytorch, A3C LSTM Atari与Pytorch加3g设计.zip

  2. rl_a3c_pytorch, A3C LSTM Atari与Pytorch加3g设计 新增加的3g A3G新的gpu/cpu架构,以大大加速训练 ! A3C Pytorch 新添加的3g !利用GPU提高训练速度的A3C新实现。 我们可以拨打 3g电话。 它的他版本的A3C相反,每个代理都有自己的
  3. 所属分类:其它

    • 发布日期:2019-10-09
    • 文件大小:29mb
    • 提供者:weixin_38744270
  1. alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码

  2. 机器学习基础知识2020/2021的最终项目代码模板: : 我们的任务:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏。 强化学习-快速概述: 常见的RL方法可以分为基于策略和基于价值的方法。值方法输出代表当前状态质量的值,并在值迭代过程中学习。从选择随机值函数开始,此过程将迭代地改进该函数,直到达到最佳值函数为止。然后可以从该函数中得出最佳策略。 另一方面,基于策略的方法旨在直接改善代理的策略,即状态与行为之间的映射。 流行的方法有: (深度)Q学习(值方法) 策略梯
  3. 所属分类:其它

  1. NTU-ReinforcementLearning-Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记-源码

  2. 李宏毅深度强化学习笔记 课程主页: 视频: 李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最佳奖励出发,直接引出政策梯度(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C,DDPG),紧接着介绍了一些Reward Shaping的方法(主要是好奇心,课程学习,分层学习) ,,最后介绍模仿学习(逆RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种值迭代的思路
  3. 所属分类:其它

  1. alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码

  2. 机器学习基础知识2020/2021的最终项目代码模板: : 我们的任务: 我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏。 强化学习-快速概述: 常见的RL方法可以分为基于策略和基于价值的方法。 值方法输出代表当前状态质量的值,并在值迭代过程中学习。 从选择随机值函数开始,此过程将迭代地改进该函数,直到达到最佳值函数为止。 然后可以从该函数中得出最佳策略。 另一方面,基于策略的方法旨在直接改善代理的策略,即状态与行为之间的映射。 流行的方法有: (深度)Q学习(
  3. 所属分类:其它

  1. AI4U:AI4U提供了一种将python代码与Unity游戏连接的简便方法。 这样,您可以使用整个可用的Python机器学习文化,通过Unity来实验机器学习算法和人工智能-源码

  2. 什么是AI4U? AI4U是将Unity应用程序连接到Python代码的一种简洁方便的方法。 因此,可以使用AI4U插件将游戏和虚拟现实应用程序连接到以Python编写的庞大库中。 而且,One提供了与OpenAI实施的最新算法(例如PPO和PPO2)的集成。 因此,对AI4U感兴趣的人可以使用OpenAI研究人员提供的最新进展。 产品特点 一些例子。 支持多种环境配置和培训方案 可以集成到您的游戏或自定义Unity场景中的灵活SDK 与API无关,但其中一种支持由基础实现的所有算法。
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:26mb
    • 提供者:weixin_42165583
  1. Super-mario-bros-A3C-pytorch:超级马里奥兄弟的异步优势Actor-Critic(A3C)算法-源码

  2. [PYTORCH]扮演超级马里奥兄弟的非同步优势演员评判(A3C) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸异步方法用于深强化学习引入异步优势演员,评论家(A3C)算法。 样品结果 动机 在我实施该项目之前,有多个存储库可以很好地重现本文的结果,这些存储库可以在Tensorflow,Keras和Pytorch等不同的常见深度学习框架中进行。 我认为,其中大多数都很棒。 但是,它们似乎在许多方面都过于复杂,包括图像的预处理,环境设置和权重初始化,这使
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:300mb
    • 提供者:weixin_42100129
  1. 神经本地化:训练RL代理主动进行本地化(PyTorch)-源码

  2. 主动神经定位 这是ICLR-18文件的PyTorch实现: Devendra Singh Chaplot,Emilio Parisotto,Ruslan Salakhutdinov 卡内基·梅隆大学 项目网站: : 该存储库包含: Maze2D环境的代码,该代码会生成随机2D迷宫以进行主动定位。 用于使用A3C在Maze2D环境中训练主动神经定位代理的代码。 依存关系 (v0.3) 用法 训练 要在7x7迷宫上训练16条线程的主动神经定位A3C代理,最大情节长度为30: pytho
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:12mb
    • 提供者:weixin_42166918
  1. minimalRL:用最少的代码行实现基本的RL算法! (基于火炬)-源码

  2. 最小RL 用最少的代码行实现基本的RL算法! (基于PyTorch) 每种算法都在一个文件中完成。 每个文件的长度最多为100〜150行代码。 即使没有GPU,也可以在30秒内训练每种算法。 Env固定为“ CartPole-v1”。 您可以只关注实现。 演算法 (67行) (98行) (112行,包括重放内存和目标网络) (119条线,包括GAE) (145行,包括OU噪声和软目标更新) (129条线) (149条线) (188条线) (171行)已添加
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:18kb
    • 提供者:weixin_42121725
  1. 带有火炬的深度增强学习:DQN,AC,ACER,A2C,A3C,PG,DDPG,TRPO,PPO,SAC,TD3和PyTorch实施...-源码

  2. 状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorc
  3. 所属分类:其它