您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Siamese Recurrent Architectures for Learning Sentence Similarity.pdf

  2. 用最简单的模型、最简单的特征工程做出好效果,追求的就是极致性价比。如果有需要,可以在此基础上做一些模型更改和特征工程,提高表现效果。ture for face verification developed by Chopra, Hadsell, and This forces the LSTm to entirely capture the semantic dif- LeCun(2005), which utilizes symmetric Conv Nets where ferences d
  3. 所属分类:深度学习

    • 发布日期:2019-10-14
    • 文件大小:1048576
    • 提供者:wolegequya
  1. dueldqn.pdf

  2. 关于duelingdqn的原始论文,适合初学者对深度强化学习duelingdqn的认识和了解Dueling Network Architectures for Deep Reinforcement Learning et al.(2016). The results of Schaul et al.(2016) are the 2.1. Deep Q-networks current published state-of-the-art The value functions as descri
  3. 所属分类:讲义

    • 发布日期:2019-09-02
    • 文件大小:688128
    • 提供者:m0_37384317
  1. 强化学习课件.pdf

  2. 本课件讲解了强化学习的基本问题,经典Q学习理论,深度Q学习理论和程序讲解与训练。强化学习相关参考资料 网络资源 01 https://www.intelnervana.com/demystifying-deep-reinforcement-learning/ http://artint.info/html/artint265.html 参考文献 02 Playing Atari with Deep Reinforcement Learning 2013: arXiv: 1312.5602v1 C
  3. 所属分类:深度学习

    • 发布日期:2019-08-24
    • 文件大小:2097152
    • 提供者:homeofcm
  1. Python-pytorch中的深度QLearning网络

  2. pytorch中的深度Q-Learning网络
  3. 所属分类:其它

    • 发布日期:2019-08-10
    • 文件大小:15360
    • 提供者:weixin_39841856
  1. Python-深度强化学习的异步方法实现

  2. 来自"深度强化学习的异步方法"的1-step Q Learning的Tensorflow Keras OpenAI Gym实现
  3. 所属分类:其它

    • 发布日期:2019-08-09
    • 文件大小:1048576
    • 提供者:weixin_39841365
  1. A Step By Step Guide To Learning SQL

  2. SQL 是用于访问和处理数据库的标准的计算机语言。 <>,英文书籍,pdf版本Contents Chapter 1: Welcome to SQL Chapter 2: Install SQL Server Chapter 3: Creating a Table and Inserting Data Chapter 4: Querying the Table Chapter 5: Aggregating Data Chapter 6: Using the And/Or Functio
  3. 所属分类:其它

    • 发布日期:2019-02-23
    • 文件大小:1048576
    • 提供者:linfeng_rs
  1. 煤矿井下移动机器人路径规划的算法优化

  2. 机器人研究领域中一大难题就是机器人路径规划问题,特别是对于条件极为恶劣、工况十分复杂的煤矿井下作业环境而言,获取满意的规划结果的难度更大。文章首先对Q-learning算法进行简单介绍,之后阐述了依托于Q-learning算法的路径规划,并进行了仿真分析。
  3. 所属分类:其它

    • 发布日期:2020-05-31
    • 文件大小:686080
    • 提供者:weixin_38576922
  1. 莫烦强化学习部分算法代码解析.pdf

  2. 莫烦课程强化学习部分的代码解析,从q-learning算法到ddpg算法,整体代码的思路流程,还有关键部分的详细解释,配套公式详解。
  3. 所属分类:深度学习

    • 发布日期:2020-06-14
    • 文件大小:2097152
    • 提供者:weixin_39059031
  1. A Reinforcement Learning Framework for Medical Image Segmentation.pdf

  2. Abstract— This paper introduces a new method to medical image segmentation using a reinforcement learning scheme. We use this novel idea as an effective way to optimally find the appropriate local thresholding and structuring element values and segme
  3. 所属分类:机器学习

    • 发布日期:2020-06-29
    • 文件大小:672768
    • 提供者:phytle0
  1. 基于深度强化学习的电网紧急控制策略研究.pdf

  2. :提出一种基于深度强化学习的电网切机控制策略,所 提控制策略依据电网运行环境信息,通过数据分析得到切机 控制策略。首先介绍强化学习框架,阐述学习算法原理,并 详细介绍Q-Learning 方法。然后介绍深度学习基本概念和 深度卷积网络原理,提出利用深度卷积网络提取电网运行特 征,构建切机策略的思路。再结合深度学习和强化学习,构 建深度强化学习框架,其中深度学习采用深度卷积神经网络 模型用于提取特征,强化学习采用双重Q-Learning 和竞争 Q-Learning 模型计算Q 值,通过比较Q 值
  3. 所属分类:讲义

    • 发布日期:2020-09-05
    • 文件大小:1048576
    • 提供者:SparkQiang
  1. 学习论文 “Edge-Labeling Graph Neural Network for Few-shot Learning”笔记

  2. 个人笔记对模型数学上的解读部分很大程度上受到这篇博客的启发与参考 Notation T=S∪QT=S \cup QT=S∪Q,support set and query set, support set SSS in each episode serves as the labeled training set xix_ixi​ and yi∈{C1,…,CN}=CT⊂Cy_i \in \{C_1,…,C_N\}=C_T \subset Cyi​∈{C1​,…,CN​}=CT​⊂C: iii t
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:344064
    • 提供者:weixin_38735544
  1. 2048-Gym:该项目旨在使用强化学习算法来玩2048游戏-源码

  2. 2048健身房 该存储库是一个有关使用DQN(Q-Learning)玩2048游戏并使用加速和加速环境的。使用的算法来自“ ,环境是自定义的 env。该环境包含两种类型的电路板表示形式:二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反,没有二进制文件使用原始矩阵板。 该模型使用两种不同类型的神经网络:CNN(卷积神经网络),MLP(多层感知器)。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果,代理在1000个已玩游戏的10%中获得2048个图块。
  3. 所属分类:其它

    • 发布日期:2021-03-21
    • 文件大小:59768832
    • 提供者:weixin_42097208
  1. MineRL-源码

  2. 抽象的 我们将使用流行的沙盒视频游戏Minecraft及其相关的Malmo平台来训练代理,以成功打击被称为“暴民”的游戏内实体。 我们希望,像我们在模拟环境中用于训练代理的方法那样,可以外推到现实世界中的应用程序,例如机器人技术。 我们将使用一种流行的强化学习技术,称为Deep Q Learning,它使用了几种不同的特征表示,并比较了性能差异。 简介与背景 Minecraft是一款流行的沙盒视频游戏,其中包含许多被称为“暴民”的敌对非玩家实体; 这些实体旨在攻击和杀死玩家角色。 我们的特工将必
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:1048576
    • 提供者:weixin_42102220
  1. SAC:软演员评论家的实施-源码

  2. 软演员评论家(SAC) Descllione dell'algoritmo 软演员评论家深度强化学习DQN(Deep Q Learning)的非政策派生,也可以从以下方面进行分类: La Q函数视图的神经网络输入(输入:(stato,azione),输出:valore) 非因果关系的公司 L'agente conosce lo stato in cui si trova(communque una descrizione parziale dello stato attuale) L'a
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:1048576
    • 提供者:weixin_42178688
  1. NTU-ReinforcementLearning-Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记-源码

  2. 李宏毅深度强化学习笔记 课程主页: 视频: 李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最佳奖励出发,直接引出政策梯度(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C,DDPG),紧接着介绍了一些Reward Shaping的方法(主要是好奇心,课程学习,分层学习) ,,最后介绍模仿学习(逆RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种值迭代的思路
  3. 所属分类:其它

    • 发布日期:2021-03-12
    • 文件大小:4194304
    • 提供者:weixin_42127369
  1. left-shift:使用深度强化学习解决游戏2048-源码

  2. 左移 该存储库包含我们的项目中ÉcolePolytechnique的INF581:AI高级主题中使用的代码。 在此项目中,我们旨在培训2048游戏的游戏代理。 我们实现了一个来对游戏进行建模,并使用来自稳定基线库的Deep Q-Learning(DQN)算法来训练多个代理,这些代理会改变状态编码,奖励功能,网络类型和结构。 结果表明,使用单热编码的编码状态对于提高性能至关重要。 我们还得出结论,就此游戏而言,卷积神经网络(CNN)比多层感知器(MLP)更有效。 要进行更深入的讨论,请阅读。
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:157286400
    • 提供者:weixin_42165973
  1. market-rl-源码

  2. 强化学习的股票预测 (纽约机器学习研讨会) 安装 安装Anaconda环境,然后: conda create -n rl python=3 jupyterlab numpy pandas matplotlib conda activate rl Q-Learning简介 笔记本电脑 jupyter lab 打开笔记本: reinforcement-learning-1.ipynb reinforcement-learning-2.ipynb 高级-深度强化学习 conda install -c
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:4194304
    • 提供者:weixin_42105816
  1. 加固项目-源码

  2. 加固项目 7ech-AgentsTakımıGrupÜyeleri:MertSÜLÜK–BüşraALASYA –BüşraDOĞAN– CemhanŞENOL– CihanŞENOL–Emre KAYA – Alperen ERCAN –Takımarkadaşlarımasevgiler :) “ 7ech-Agents” olarak Pygame kullanarakgeliştirdiğimizKaçmaOyunu'nda强化学习算法深度Q-Learning'ikullandık。
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:35840
    • 提供者:weixin_42109639
  1. 深度强化学习——DQN

  2. 本文来自于csdn,本文章主要介绍了深度学习与强化学习结合起来从而实现从感知(Perception)到动作(Action)的端对端(End-to-end)学习的一种全新的算法。原因:在普通的Q-learning中,当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值,而当状态和动作空间是高维连续时,使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题,相近的状态得到相近的输出动作。如下式,通过更新参数θθ使Q函数逼近最优Q值而深度神经网络可
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:404480
    • 提供者:weixin_38642636
  1. 最小状态变元平均奖赏的强化学习方法

  2. 针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:445440
    • 提供者:weixin_38545923
« 1 2 ... 4 5 6 7 8 910 11 12 13 14 »