搜索资源 - Q-Learning - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - Q-Learning

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

Siamese Recurrent Architectures for Learning Sentence Similarity.pdf
用最简单的模型、最简单的特征工程做出好效果，追求的就是极致性价比。如果有需要，可以在此基础上做一些模型更改和特征工程，提高表现效果。ture for face verification developed by Chopra, Hadsell, and This forces the LSTm to entirely capture the semantic dif- LeCun(2005), which utilizes symmetric Conv Nets where ferences d
所属分类：深度学习
- 发布日期：2019-10-14
- 文件大小：1048576
- 提供者：wolegequya

dueldqn.pdf
关于duelingdqn的原始论文，适合初学者对深度强化学习duelingdqn的认识和了解Dueling Network Architectures for Deep Reinforcement Learning et al.(2016). The results of Schaul et al.(2016) are the 2.1. Deep Q-networks current published state-of-the-art The value functions as descri
所属分类：讲义
- 发布日期：2019-09-02
- 文件大小：688128
- 提供者：m0_37384317

强化学习课件.pdf
本课件讲解了强化学习的基本问题，经典Q学习理论，深度Q学习理论和程序讲解与训练。强化学习相关参考资料网络资源 01 https://www.intelnervana.com/demystifying-deep-reinforcement-learning/ http://artint.info/html/artint265.html 参考文献 02 Playing Atari with Deep Reinforcement Learning 2013: arXiv: 1312.5602v1 C
所属分类：深度学习
- 发布日期：2019-08-24
- 文件大小：2097152
- 提供者：homeofcm

Python-pytorch中的深度QLearning网络
pytorch中的深度Q-Learning网络
所属分类：其它
- 发布日期：2019-08-10
- 文件大小：15360
- 提供者：weixin_39841856

Python-深度强化学习的异步方法实现
来自"深度强化学习的异步方法"的1-step Q Learning的Tensorflow Keras OpenAI Gym实现
所属分类：其它
- 发布日期：2019-08-09
- 文件大小：1048576
- 提供者：weixin_39841365

A Step By Step Guide To Learning SQL
SQL 是用于访问和处理数据库的标准的计算机语言。 <>，英文书籍，pdf版本Contents Chapter 1: Welcome to SQL Chapter 2: Install SQL Server Chapter 3: Creating a Table and Inserting Data Chapter 4: Querying the Table Chapter 5: Aggregating Data Chapter 6: Using the And/Or Functio
所属分类：其它
- 发布日期：2019-02-23
- 文件大小：1048576
- 提供者：linfeng_rs

煤矿井下移动机器人路径规划的算法优化
机器人研究领域中一大难题就是机器人路径规划问题,特别是对于条件极为恶劣、工况十分复杂的煤矿井下作业环境而言,获取满意的规划结果的难度更大。文章首先对Q-learning算法进行简单介绍,之后阐述了依托于Q-learning算法的路径规划,并进行了仿真分析。
所属分类：其它
- 发布日期：2020-05-31
- 文件大小：686080
- 提供者：weixin_38576922

莫烦强化学习部分算法代码解析.pdf
莫烦课程强化学习部分的代码解析，从q-learning算法到ddpg算法，整体代码的思路流程，还有关键部分的详细解释，配套公式详解。
所属分类：深度学习
- 发布日期：2020-06-14
- 文件大小：2097152
- 提供者：weixin_39059031

A Reinforcement Learning Framework for Medical Image Segmentation.pdf
Abstract— This paper introduces a new method to medical image segmentation using a reinforcement learning scheme. We use this novel idea as an effective way to optimally find the appropriate local thresholding and structuring element values and segme
所属分类：机器学习
- 发布日期：2020-06-29
- 文件大小：672768
- 提供者：phytle0

基于深度强化学习的电网紧急控制策略研究.pdf
：提出一种基于深度强化学习的电网切机控制策略，所提控制策略依据电网运行环境信息，通过数据分析得到切机控制策略。首先介绍强化学习框架，阐述学习算法原理，并详细介绍Q-Learning 方法。然后介绍深度学习基本概念和深度卷积网络原理，提出利用深度卷积网络提取电网运行特征，构建切机策略的思路。再结合深度学习和强化学习，构建深度强化学习框架，其中深度学习采用深度卷积神经网络模型用于提取特征，强化学习采用双重Q-Learning 和竞争 Q-Learning 模型计算Q 值，通过比较Q 值
所属分类：讲义
- 发布日期：2020-09-05
- 文件大小：1048576
- 提供者：SparkQiang

学习论文 “Edge-Labeling Graph Neural Network for Few-shot Learning”笔记
个人笔记对模型数学上的解读部分很大程度上受到这篇博客的启发与参考 Notation T=S∪QT=S \cup QT=S∪Q,support set and query set, support set SSS in each episode serves as the labeled training set xix_ixi and yi∈{C1,…,CN}=CT⊂Cy_i \in \{C_1,…,C_N\}=C_T \subset Cyi∈{C1,…,CN}=CT⊂C: iii t
所属分类：其它
- 发布日期：2021-01-06
- 文件大小：344064
- 提供者：weixin_38735544

2048-Gym:该项目旨在使用强化学习算法来玩2048游戏-源码
2048健身房该存储库是一个有关使用DQN（Q-Learning）玩2048游戏并使用加速和加速环境的。使用的算法来自“ ，环境是自定义的 env。该环境包含两种类型的电路板表示形式：二进制和无二进制。第一个使用幂二矩阵来表示电路板的每个图块。相反，没有二进制文件使用原始矩阵板。该模型使用两种不同类型的神经网络：CNN（卷积神经网络），MLP（多层感知器）。使用CNN作为特征提取器比使用MLP更好。可能是因为CNN可以提取空间特征。结果，代理在1000个已玩游戏的10％中获得2048个图块。
所属分类：其它
- 发布日期：2021-03-21
- 文件大小：59768832
- 提供者：weixin_42097208

MineRL-源码
抽象的我们将使用流行的沙盒视频游戏Minecraft及其相关的Malmo平台来训练代理，以成功打击被称为“暴民”的游戏内实体。我们希望，像我们在模拟环境中用于训练代理的方法那样，可以外推到现实世界中的应用程序，例如机器人技术。我们将使用一种流行的强化学习技术，称为Deep Q Learning，它使用了几种不同的特征表示，并比较了性能差异。简介与背景 Minecraft是一款流行的沙盒视频游戏，其中包含许多被称为“暴民”的敌对非玩家实体；这些实体旨在攻击和杀死玩家角色。我们的特工将必
所属分类：其它
- 发布日期：2021-03-14
- 文件大小：1048576
- 提供者：weixin_42102220

SAC:软演员评论家的实施-源码
软演员评论家（SAC） Descllione dell'algoritmo 软演员评论家深度强化学习DQN（Deep Q Learning）的非政策派生，也可以从以下方面进行分类： La Q函数视图的神经网络输入（输入：（stato，azione），输出：valore）非因果关系的公司 L'agente conosce lo stato in cui si trova（communque una descrizione parziale dello stato attuale） L'a
所属分类：其它
- 发布日期：2021-03-13
- 文件大小：1048576
- 提供者：weixin_42178688

NTU-ReinforcementLearning-Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记-源码
李宏毅深度强化学习笔记课程主页：视频：李宏毅老师讲这门课不是从MDP开始讲起，而是从如何获得最佳奖励出发，直接引出政策梯度（以及PPO），再讲Q-learning（原始Q-learning，DQN，各种DQN的升级），然后是A2C（以及A3C，DDPG），紧接着介绍了一些Reward Shaping的方法（主要是好奇心，课程学习，分层学习），，最后介绍模仿学习（逆RL）。比较全面的展现了深度强化学习的核心内容，也比较直观。跟伯克利学派的课类似，与UCL上来就讲MDP，解各种值迭代的思路
所属分类：其它
- 发布日期：2021-03-12
- 文件大小：4194304
- 提供者：weixin_42127369

left-shift:使用深度强化学习解决游戏2048-源码
左移该存储库包含我们的项目中ÉcolePolytechnique的INF581：AI高级主题中使用的代码。在此项目中，我们旨在培训2048游戏的游戏代理。我们实现了一个来对游戏进行建模，并使用来自稳定基线库的Deep Q-Learning（DQN）算法来训练多个代理，这些代理会改变状态编码，奖励功能，网络类型和结构。结果表明，使用单热编码的编码状态对于提高性能至关重要。我们还得出结论，就此游戏而言，卷积神经网络（CNN）比多层感知器（MLP）更有效。要进行更深入的讨论，请阅读。
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：157286400
- 提供者：weixin_42165973

market-rl-源码
强化学习的股票预测（纽约机器学习研讨会）安装安装Anaconda环境，然后： conda create -n rl python=3 jupyterlab numpy pandas matplotlib conda activate rl Q-Learning简介笔记本电脑 jupyter lab 打开笔记本： reinforcement-learning-1.ipynb reinforcement-learning-2.ipynb 高级-深度强化学习 conda install -c
所属分类：其它
- 发布日期：2021-03-08
- 文件大小：4194304
- 提供者：weixin_42105816

加固项目-源码
加固项目 7ech-AgentsTakımıGrupÜyeleri：MertSÜLÜK–BüşraALASYA –BüşraDOĞAN– CemhanŞENOL– CihanŞENOL–Emre KAYA – Alperen ERCAN –Takımarkadaşlarımasevgiler :) “ 7ech-Agents” olarak Pygame kullanarakgeliştirdiğimizKaçmaOyunu'nda强化学习算法深度Q-Learning'ikullandık。
所属分类：其它
- 发布日期：2021-03-02
- 文件大小：35840
- 提供者：weixin_42109639

深度强化学习——DQN
本文来自于csdn，本文章主要介绍了深度学习与强化学习结合起来从而实现从感知（Perception）到动作（Action）的端对端（End-to-end）学习的一种全新的算法。原因：在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作。如下式，通过更新参数θθ使Q函数逼近最优Q值而深度神经网络可
所属分类：其它
- 发布日期：2021-02-24
- 文件大小：404480
- 提供者：weixin_38642636

最小状态变元平均奖赏的强化学习方法
针对采用折扣奖赏作为评价目标的Q学习无法体现对后续动作的影响问题,提出将平均奖赏和Q学习相结合的AR-Q-Learning算法,并进行收敛性证明。针对学习参数个数随着状态变量维数呈几何级增长的"维数灾"问题,提出最小状态变元的思想。将最小变元思想和平均奖赏用于积木世界的强化学习中,试验结果表明,该方法更具有后效性,加快算法的收敛速度,同时在一定程度上解决积木世界中的"维数灾"问题。
所属分类：其它
- 发布日期：2021-02-24
- 文件大小：445440
- 提供者：weixin_38545923

« 1 2 ... 4 5 6 7 8 910 11 12 13 14 »