您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 强化学习DQN

  2. 这本书详细介绍了强化学习的常用算法以及算法原理,从蒙特卡罗方法到Q_learning最终到DQN
  3. 所属分类:深度学习

    • 发布日期:2018-05-25
    • 文件大小:1mb
    • 提供者:wshzd
  1. 深度强化学习DQN训练Flappy bird源代码

  2. 深度强化学习DQN训练Flappy Bird源代码,可以直接运行FlappyBirdDQN.py使用。
  3. 所属分类:深度学习

    • 发布日期:2018-11-10
    • 文件大小:106mb
    • 提供者:qq_29462849
  1. 深度强化学习 DQN系列论文

  2. 深度强化学习系列论文,包括最基础的DQN,DQN模型改进,DQN算法改进,分层DRL,基于策略梯度的深度强化学习等等,论文基本源自顶会
  3. 所属分类:深度学习

    • 发布日期:2020-01-31
    • 文件大小:69mb
    • 提供者:weixin_43333326
  1. leedeeprl-notes:李宏毅《深度强化学习》笔记,在线阅读地址:https-源码

  2. 李宏毅深度强化学习笔记(LeeDeepRL-注意事项) 李宏幽默老师的《深度强化学习》是强化学习领域经典的中文视频之一。李老师幽默风趣的上课风格让晦涩难懂的强化学习理论变得轻松易懂,他会通过很多有趣的例子例证解强化学习理论。某些老师经常会用玩Atari游戏的例子解释解解强化学习算法。如此,为了课程的补充,我们整理了周博磊老师的《强化学习纲要》,李科浇老师的《百度强化学习》。以及多个强化学习的经典资料作为补充。对于想入门强化学习又想看中文讲解的人来说绝对是非常推荐的。 使用说明 第4章到第11章为
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:135mb
    • 提供者:weixin_42175776
  1. DQN-toys:在建筑游戏特工上使用深度强化学习的玩具模型-源码

  2. DQN玩具 用于在构建游戏代理上使用深度强化学习的玩具模型。
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:16kb
    • 提供者:weixin_42099302
  1. deep-reinforcement-learning-atari-pong:强化学习DQN算法的PyTorch在OpenAI Atari Pong游戏中的应用-源码

  2. Atari Pong中的深度强化学习算法 概括 此应用程序的目标是找出深度Q学习(DQN)在OpenAI环境中对Pong的Atari 1600游戏有多准确和有效。 在DQN之上,测试了对相同算法的其他改进,包括多步DQN,Double DQN和Dueling DQN。 从下图可以看出,基本DQN仅需玩约110场游戏即可达到类似于人的准确性,而经过300场游戏即可达到极高的准确性。 此项目中考虑的DQN改进版本显示出效率和准确性方面的一些改进。 基本DQN:第1集与第216集 环保环境 Atar
  3. 所属分类:其它

  1. NTU-ReinforcementLearning-Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记-源码

  2. 李宏毅深度强化学习笔记 课程主页: 视频: 李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最佳奖励出发,直接引出政策梯度(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C,DDPG),紧接着介绍了一些Reward Shaping的方法(主要是好奇心,课程学习,分层学习) ,,最后介绍模仿学习(逆RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种值迭代的思路
  3. 所属分类:其它

  1. ai-traineree:用于(深度)强化学习的PyTorch代理和工具-源码

  2. 实习生 目的是建立一个深度强化学习方法的动物园,并展示它们在某些环境中的应用。 在文档中阅读更多信息: 。 为什么要另选一个? 主要原因是执行哲学。 我们坚信,代理应该出现在环境中,而不是相反。 大多数流行的实现都将环境实例传递给代理,就像代理是焦点一样。 这可能会简化某些算法的实现,但并不代表世界。 代理想要控制环境,但这并不意味着他们可以/应该。 那,然后使用PyTorch代替Tensorflow或JAX。 快速开始 要开始培训RL代理,您需要三件事:代理,环境和跑步者。 假设您要
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:139kb
    • 提供者:weixin_42174098
  1. left-shift:使用深度强化学习解决游戏2048-源码

  2. 左移 该存储库包含我们的项目中ÉcolePolytechnique的INF581:AI高级主题中使用的代码。 在此项目中,我们旨在培训2048游戏的游戏代理。 我们实现了一个来对游戏进行建模,并使用来自稳定基线库的Deep Q-Learning(DQN)算法来训练多个代理,这些代理会改变状态编码,奖励功能,网络类型和结构。 结果表明,使用单热编码的编码状态对于提高性能至关重要。 我们还得出结论,就此游戏而言,卷积神经网络(CNN)比多层感知器(MLP)更有效。 要进行更深入的讨论,请阅读。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:150mb
    • 提供者:weixin_42165973
  1. 深度强化学习——DQN

  2. 本文来自于csdn,本文章主要介绍了深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。原因:在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。如下式,通过更新参数θθ使Q函数逼近最优Q值而深度神经网络可
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:395kb
    • 提供者:weixin_38642636
  1. DRL:“深度强化学习”代码的存储库-源码

  2. 博士升 介绍 该存储库是Deep Reinforcement Learning的代码我通过游戏验证了我的代码。 这些游戏是用pygame 。 我制作了游戏或修改了游戏以申请DRL。 另外,由Unity ML-agents构成的环境位于 我实现的每种算法的性能如下(已通过Breakout验证)。 我按照以下步骤设置DRL代码。 这是我实现descr iption of DQN codes的。 DRL算法的描述 环境 软件 Windows7(64位) Python 3.6.5 Python4.
  3. 所属分类:其它

  1. DeepRL-TensorFlow2:using使用TensorFlow2轻松实现各种流行的深度强化学习算法-源码

  2. TensorFlow2中的深度强化学习 是一个使用实现各种流行的深度强化学习算法的存储库。 该存储库的关键是易于理解的代码。 因此,如果您是学生或研究深度强化学习的研究人员,我认为这是使用此存储库学习的最佳选择。 一种算法仅依赖于一个python脚本文件。 因此,您不必进出不同的文件即可研究特定的算法。 该存储库将不断更新,并将继续添加新的“深度强化学习”算法。 演算法 DQN 纸上 作者Volodymyr Mnih,Koray Kavukcuoglu,David Silver,Alex
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:378kb
    • 提供者:weixin_42146888
  1. huskarl:深度强化学习框架+算法-源码

  2. 胡斯卡尔 Huskarl是专注于模块化和快速原型设计的深度强化学习框架。 它基于TensorFlow 2.0构建,并在可能的情况下使用tf.keras API以获得简洁性和可读性。 Huskarl使跨多个CPU内核的环境动态计算的并行化变得容易。 这对于加速基于策略的学习算法很有用,该算法可从多个并发的经验来源(例如A2C或PPO)中受益。 它对于计算密集型环境(例如基于物理的环境)特别有用。 与环境无缝。 计划支持多代理环境和。 演算法 实现了几种算法,并计划了更多算法。 深度Q学习
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:31mb
    • 提供者:weixin_42127020
  1. deep-rl-tensorflow:深度强化学习论文的TensorFlow实现-源码

  2. TensorFlow中的深度强化学习 TensorFlow实施深度强化学习论文。 该实现包含: [1] [2][3][4][5](进行中) [6](正在进行中) [7](进行中) [8](正在进行中) 要求 Python 2.7 或 用法 首先,使用以下命令安装必备组件: $ pip install -U 'gym[all]' tqdm scipy 不要忘了还要安装最新的 。 还请注意,您需要安装所需的依赖项gym[all] 在没有gpu的情况下使用所述的DQN模型进行训练: $
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:567kb
    • 提供者:weixin_42133329
  1. pytorch-rl:使用pytorch和visdom进行深度强化学习-源码

  2. 深度强化学习 火炬与视觉 训练有素的特工的样本测试(突破时使用DQN,乒乓球上使用A3C,CartPole上使用DoubleDQN,InvertedPendulum(MuJoCo)上使用连续A3C): 在Pong上训练A3C代理时具有16个学习者过程的示例在线绘图示例: 在CartPole上训练DQN代理时的示例日志记录(我们目前使用WARNING作为日志记录级别来摆脱来自visdom的INFO打印输出): [WARNING ] (MainProcess) [WARNING ] (Mai
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:12mb
    • 提供者:weixin_42174176
  1. Rainbow:Rainbow:结合深度强化学习的改进-源码

  2. 彩虹 Rainbow:结合深度强化学习的改进 。 结果和预先训练的模型可以在找到。 DQN Double DQN 优先体验重播 决斗网络体系结构 多步骤退货 分布式RL 吵网 使用默认参数运行原始Rainbow: python main.py 可以使用以下选项运行数据有效的Rainbow (请注意,实际上,此处通过手动设置内存容量与最大时间步数相同来实现“*”内存): python main.py --target-update 2000 \
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:17kb
    • 提供者:weixin_42157556
  1. keras-rl:Keras的深度强化学习-源码

  2. Keras的深度强化学习 它是什么? keras-rl在Python中实现了一些最先进的深度强化学习算法,并与深度学习库无缝集成。 此外, keras-rl可与一起使用。 这意味着评估和使用不同算法很容易。 当然,您可以根据自己的需要扩展keras-rl 。 您可以使用内置的Keras回调和指标,也可以定义自己的回调和指标。 更重要的是,只需扩展一些简单的抽象类,即可轻松实现自己的环境甚至算法。 文档可。 包含什么? 到目前为止,已实现以下算法: 深度Q学习(DQN) , Dou
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:882kb
    • 提供者:weixin_42099755
  1. chainerrl:ChainerRL是建立在Chainer之上的深度强化学习库-源码

  2. ChainerRL ChainerRL是一个深度强化学习库,它使用灵活的深度学习框架在Python中实现了各种最新的深度强化算法。 安装 ChainerRL已通过3.6测试。 有关其他要求,请参见 。 可以通过PyPI安装ChainerRL: pip install chainerrl 也可以从源代码安装: python setup.py install 有关的更多信息,请参阅安装。 入门 您可以先尝试《 ,或查看适用于Atari 2600和Open AI Gym的。 有关更多信息,
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:10mb
    • 提供者:weixin_42120563
  1. 强化学习算法:此存储库包含大多数基于pytorch实现的经典深度强化学习算法,包括-DQN,DDQN,Dualling Network,DDPG,SAC,A2C,PPO,TRPO。 (更多算法仍在进行中)-源码

  2. 深度强化学习算法 该存储库将使用PyTorch实现经典的深度强化学习算法。 该存储库的目的是为人们提供清晰的代码,以供他们学习深度强化学习算法。 将来,将添加更多算法,并且还将保留现有代码。 当前实施 深度Q学习网络(DQN) 基本DQN 双Q网络 决斗网络架构 深度确定性策略梯度(DDPG) 优势演员评判(A2C) 信任区域策略梯度(TRPO) 近端政策优化(PPO) 使用克罗内克因素信任区域(ACKTR)的演员评论家 软演员评论(SAC) 更新信息 :triangu
  3. 所属分类:其它

  1. 深度强化学习——DQN

  2. 本文来自于csdn,本文章主要介绍了深度学习与强化学习结合起来从而实现从感知(Perception)到动作( Action)的端对端(End-to-end)学习的一种全新的算法。 原因:在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。 通常做法是把Q-Table的更新问题变成
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:394kb
    • 提供者:weixin_38608693
« 12 3 4 »