搜索资源 - Q-Learning - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - Q-Learning

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

强化学习的10个现实应用
在强化学习中，我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励，做出错误的行为就会受到惩罚。这样的话，agent就会试着将自己的错误行为最少化，将自己的正确行为最多化。本文我们将会聚焦于强化学习在现实生活中的实际应用。无人驾驶中的应用很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中，需要考虑的问题是非常多的，如：不同地方的限速不同限速，是否是可行驶区域，如何躲避障碍等问题。有些自动驾驶的任务可以与强化学习相结合，比如轨迹优化，运动规划，动态路径，最优控制，以
所属分类：其它
- 发布日期：2021-02-23
- 文件大小：385024
- 提供者：weixin_38715094

ParmorelRunnable：parmorel项目中的某些原始文件在主要模式中是不需要的。文件大部分不变-源码
PARMOREL项目使用强化学习（PARMOREL）的个性化和自动修复模型。 PARMOREL是一种WIP工具，用于使用强化学习（当前为Q-Learning）来自动修复软件模型。 Main.java中的代码对应于一个评估，其中我们修复了100个使用AMOR Ecore变异工具（）产生的变异错误。所有的突变体都在“ mutants”文件夹中。固定模型在“固定”文件夹中生成。必须手动删除“固定”模型以产生新模型。要重现评估，请执行QLearning.java。执行GUI.java
所属分类：其它
- 发布日期：2021-02-18
- 文件大小：1048576
- 提供者：weixin_42121754

DeepRL-Agents：深度强化学习代理-源码
深度强化学习代理该存储库包含以Tensorflow编写的强化学习算法的集合。这里编写的ipython笔记本是与我在发布的仍在进行中的教程系列一起编写的。如果您不熟悉强化学习，建议阅读随附的每种算法的文章。该存储库当前包含以下算法： Q表-使用表解决随机环境问题的Q学习的实现。 Q-Network -Q-Learning的神经网络实现，用于解决与Q-Table中相同的环境。简单策略-一种针对无状态环境（例如n型武装匪徒问题）的策略梯度方法的实现。 Contextual-Poli
所属分类：其它
- 发布日期：2021-02-16
- 文件大小：89088
- 提供者：weixin_42116921

深度城市导航-源码
深度Q学习导航：香蕉选取器该项目实施了Deep Q Learning策略，以在具有蓝色和黄色香蕉的环境中导航，目的是仅摘取黄色香蕉。使用Unity完成环境模拟。与环境交互的代理选择黄色香蕉获得+1的奖励，而选择蓝色香蕉则获得-1的奖励。如果该代理在单个情节中获得的累积分数达到13，则认为该代理已成功浏览环境。导航环境的主体在学习如何实现其目标时采用了深度学习方法。在Python中使用，该问题通过以下方式解决：该模型对于每次交互，代理都会观察环境的当前状态，选择一个动作并根据所
所属分类：其它
- 发布日期：2021-02-15
- 文件大小：1024
- 提供者：weixin_42128141

dmarl-sc2：使用StarCraft 2进行深度多主体增强学习-源码
스타크래프트2로배우는 课程介绍课程수행기간：约7周课程수행：基于在线/离线项目的课程 LMS：Google课堂在线会议：Zoom.us 课程教练：SK주식회사C＆C，技术培训组박석 课程表参考： : 课程主要Github参考资料： : 先决条件-编程 Python编程技巧 Numpy，Pandas，Jupyter笔记本基本 PyTorch基本先决条件-背景理论基本线性代数基本概率论基本计算深度学习基础您可以从本课程中学到什么 강화학습기초지식 PySC2 API
所属分类：其它
- 发布日期：2021-02-15
- 文件大小：12582912
- 提供者：weixin_42168230

drl-dodgeball：一个简单的躲避球环境和DDQN代理，提供课程学习和优先级的经验重播-源码
DRL躲避球 DRL（深度强化学习）已导致创建具有令人着迷的复杂和智能行为的代理，特别是在和等计算机游戏领域。一个令人兴奋的研究领域是开发最终部署到物理机器人中的数字代理，OpenAI的演示了一项任务，该任务需要高保真训练环境。在这个项目中，我们设计了具有高维感官数据源的物理逼真的模拟，并在其中使用完善的深层Q网络训练了代理。档案火车用于培训的主文件，目前正在使用精制DQN培训代理商命令：“ py train.py” train_DQN.py 使用精致的DQN在Unity环境下培
所属分类：其它
- 发布日期：2021-02-14
- 文件大小：36700160
- 提供者：weixin_42121058

Curso_completo_de_Inteligencia_Artificial_con_Python：由专家组成的综合人工学习中心，从python到punto des de punto de vistoteórici的自动化过程，在整个
Bienvenido Curso是一位专家级的综合智能计算机，它的概念是在unim des la punto de visto上自动完成的，其中包括Python，尤其是cubriremos Aspectos como 人工，智力，术语和术语协会的介绍。入门级的程序设计经验，可使用Python实用程序或Bellman进行编程。参加Open AI Gym竞赛的组合智力竞赛视频。可能会在实际情况中获得最佳的技术支持。重做简单的神经元通知，恢复健康的神经元，在法院审讯之前，先审后决透
所属分类：其它
- 发布日期：2021-02-14
- 文件大小：7340032
- 提供者：weixin_42134240

DDPG_TF2：KerasTensorflow 2中的简单深度确定性策略梯度算法（DDPG）实现-源码
DDPG_TF2 很难在TF2中找到简单整洁的DDPG实现，因此我做了一个。 DDPG DDPG是一种无模型的非策略算法，可在连续动作空间中学习Q函数和策略。它受Deep Q Learning的启发，可以看作是连续acion空间上的DQN。它利用政策外数据和Bellman方程来学习Q函数，然后使用Q函数来推导和学习政策。在DDPG的此实现中，一开始执行n次纯探索（由rand_steps参数指定）。通过在整个范围内均匀分布来选择动作。主要特点：随机（深度）模型估计可提供连续（无限
所属分类：其它
- 发布日期：2021-02-13
- 文件大小：8192
- 提供者：weixin_42160424

高斯拉姆达-源码
高斯拉姆达 elmo式学习のlambda设定の高斯化による学习の最适化 elmo式学习のlambda设定の高斯化とは何か？ elmo式学习のlambdaは0で教师の胜败结果のみから学习し（Q-learning），1で浅い探索の评価値を胜率変换したものから教师の深い探索の评価値を胜率変换したものを引いたものだけを学习します。（Rootstrap）诘み寸前の局面では胜败结果だけあれば十分で，仅か十数手先の探索结果など有意义した场合，长手数の顿死の危険性もあるかもしれません。逆に平手开始局面では，
所属分类：其它
- 发布日期：2021-02-08
- 文件大小：108544
- 提供者：weixin_42097189

COAR_Fall2020-源码
COAR_Fall2020 在2020年秋季，我针对不同的算法进行了研究，旨在提高常规Q学习算法的效率。我介绍了Double Q-Learning算法和Fitted Q-Learning算法。双Q学习有关Double Q-Learning算法的论文，请参见。我的代码全部放在一个文件（DoubleQ_MPD.ipynb）中，并使用Uniform，Epsilon Greedy和Boltzmann行为策略（通常使用恒定步长= 0.1）来覆盖代码。我使用迭代次数和运行时间来分析收敛速度与常
所属分类：其它
- 发布日期：2021-02-07
- 文件大小：324608
- 提供者：weixin_42116596

TF-rex：使用TensorFlow玩Google Chrome的T-rex游戏-源码
TF-雷克斯在此项目中，我们使用强化学习功能玩Google的霸王龙游戏。 RL算法基于Deep Q-Learning算法[1]，并在TensorFlow中从头开始实现。 ================================================== ======================== 请查看相应的-它包含许多有用的信息。 ================================================== ===============
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：23068672
- 提供者：weixin_42114580

DeepRL-Agents：在Tensorflow中实施的一组深度强化学习代理-源码
深度强化学习代理该存储库包含以Tensorflow编写的强化学习算法的集合。这里编写的ipython笔记本是与我在发布的仍在进行中的教程系列一起编写的。如果您不熟悉强化学习，建议阅读随附的每种算法的文章。该存储库当前包含以下算法： Q表-使用表解决随机环境问题的Q学习的实现。 Q-Network -Q-Learning的神经网络实现，用于解决与Q-Table中相同的环境。简单策略-一种针对无状态环境（例如n型武装匪徒问题）的策略梯度方法的实现。 Contextual-Poli
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：89088
- 提供者：weixin_42114046

tensorflow-tutorial-samples：TensorFlow2教程TensorFlow 2.0教程入门教程实战案例-源码
TensorFlow 2.0教程入门教程实战案例用最白话的语言，讲解机器学习，神经网络与深度学习样本基于TensorFlow 1.4和TensorFlow 2.0实现相关链接，，， OpenAI体育馆介绍了策略梯度算法（策略梯度）来玩CartPole-v0 介绍了DQN（深度Q学习）来玩MountainCar-v0游戏 Q-Table用神经网络来代替。介绍了使用Q-Learning（创建Q-Table）来玩MountainCar-v0游戏将连续的状态离散化。介绍了使用纯
所属分类：其它
- 发布日期：2021-02-06
- 文件大小：23068672
- 提供者：weixin_42139460

机器学习：我在PyTorch，Keras，Tensorflow，scikit学习和Python中进行机器学习的项目-源码
机器学习我的项目，Kaggle竞赛和一些流行的机器学习算法的实现。我还列出了我在ML / DL / AI领域策划的研究论文清单。指数：内容：专案以下是我在机器学习领域完成的项目：名称描述实现不同的强化学习算法，例如DQN，Double-DQN，Dualling-DQN，蒙特卡洛，时间差等。能够在基于Unity ML-Agents的Banana Collector环境中获得最大回报的Deep-Q Learning代理深度确定性策略梯度学习代理，能够在基于Unity ML
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：22020096
- 提供者：weixin_42099633

Deep_reinforcement_learning_Course：免费课程使用Tensorflow和PyTorch进行深度强化学习的实现-源码
:warning_selector: 新版本的深度强化学习课程将于2020年10月2日开始。第一章：深度强化学习简介 :scroll: :video_camera: 第2章：使用Taxi-v3进行Q学习 :taxi: :scroll: :video_camera: [文章：Q-Learning，让我们创建一个自主的出租车 :oncoming_taxi: （第2/2部分）] :calendar: 星期五 :calendar: :video_camera: [视频：Q
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：326107136
- 提供者：weixin_42129797

深度强化学习——DQN
本文来自于csdn，本文章主要介绍了深度学习与强化学习结合起来从而实现从感知（Perception）到动作（ Action）的端对端（End-to-end）学习的一种全新的算法。原因：在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。通常做法是把Q-Table的更新问题变成
所属分类：其它
- 发布日期：2021-01-27
- 文件大小：403456
- 提供者：weixin_38608693

面向车辆多址接入边缘计算网络的任务协同计算迁移策略
为了解决传统移动边缘计算网络无法很好地支持车辆的高速移动性和动态网络拓扑，设计了车辆多址接入边缘计算网络，实现路边单元和智能车辆的协同计算迁移。在该网络架构下，提出了多址接入模式选择和任务分配的联合优化问题，旨在最大化系统的长期收益，同时满足多样化的车联网应用需求，兼顾系统的能量消耗。针对该复杂的联合优化问题，设计了基于深度增强学习的多址接入协同计算迁移策略，该策略能够很好地克服传统Q-learning算法因网络规模增加带来的维度灾难挑战。仿真结果验证了所提算法具有良好的计算性能。
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：3145728
- 提供者：weixin_38707061

车辆异构网中基于移动边缘计算的任务卸载与资源分配
针对移动边缘计算（MEC）提供IT服务环境和云计算能力带来的高带宽、低时延优势，结合LTE免授权频谱（LTE-U）技术，研究了车辆异构网络中基于 MEC 的任务卸载模式决策和资源分配问题。考虑链路差异化要求，即车辆到路边单元（V2I）链路的高容量和车辆到车辆（V2V）链路的高可靠性，将用户服务质量（QoS）建模为容量与时延的组合形式。首先采用改进的 K-means 算法依据不同的 QoS 对请求车辆进行聚类，从而确定通信模式，其次利用基于无竞争期（CFP）的LTE-U，结合载波聚合（CA）技术，
所属分类：其它
- 发布日期：2021-01-20
- 文件大小：1048576
- 提供者：weixin_38586200

考虑电-气耦合系统连锁故障的多阶段信息物理协同攻击策略
针对电-气耦合系统在恶意攻击下的风险分析，提出了一种计及电-气耦合系统连锁故障的信息物理多阶段协同攻击策略。为了诱导调度人员做出错误调度决策和降低电网的安全裕度，提出了一种以最大化线路过载程度为目标的改进负荷重分配(LR)攻击模型。综合考虑天然气系统与电力系统的调度时间尺度差异，构建一种新型的电-气耦合系统多阶段协同攻击策略：初始阶段通过攻击气网侧气源或管道以影响电-气耦合节点的天然气机组状态，然后针对电力系统交替采用改进LR攻击和物理攻击，最终导致大规模连锁停运。基于Q-Learning提出了
所属分类：其它
- 发布日期：2021-01-14
- 文件大小：1048576
- 提供者：weixin_38627590

基于强化学习的服务链映射算法
提出基于人工智能技术的多智能体服务链资源调度架构，设计一种基于强化学习的服务链映射算法。通过Q-learning的机制，根据系统状态、执行部署动作后的奖惩反馈来决定服务链中各虚拟网元的部署位置。实验结果表明，与经典算法相比，该算法有效降低了业务的平均传输延时，提升了系统的负载均衡情况。
所属分类：其它
- 发布日期：2021-01-14
- 文件大小：1048576
- 提供者：weixin_38616505

« 1 2 ... 5 6 7 8 9 1011 12 13 14 »