您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. matlab Q-learning 无障碍路径规划仿真

  2. 强化学习中的一个重要里程碑就是Q学习算法,使用matlab 进行单步Q学习无障碍路径规划仿真,设学习次数为200.
  3. 所属分类:讲义

    • 发布日期:2015-11-20
    • 文件大小:4096
    • 提供者:huizoudeniren
  1. 强化学习Q-Learining介绍学术文档

  2. Q-learning 文献资料 CHRISTOPHER J.C.H. WATKINS 25b Framfield Road, Highbury, London N5 IUU, England PETER DAYAN Centre for Cognitive Science, University of Edinburgh, 2 Buccleuch Place, Edinburgh EH8 9EH, Scotland
  3. 所属分类:深度学习

    • 发布日期:2018-06-08
    • 文件大小:685056
    • 提供者:layyuiop
  1. Q-learning-master.zip

  2. Q学习 强化学习是做出最佳决策的科学。它可以帮助我们制定活的物种所表现出的奖励动机行为。比方说,你想让一个孩子坐下来学习考试。要做到这一点非常困难,但是如果每次完成一章/主题时都给他一块巧克力,他就会明白,如果他继续学习,他会得到更多的巧克力棒。所以他会有一些学习考试的动机。
  3. 所属分类:深度学习

    • 发布日期:2020-04-10
    • 文件大小:3072
    • 提供者:Running_123
  1. Deep Reinforcement Learning with Double Q-learning论文分享.pdf

  2. The popular Q-learning algorithm is known to overestimate action values under certain conditions. It was not previously known whether, in practice, such overestimations are common, whether they harm performance, and whether they can generally be prev
  3. 所属分类:机器学习

    • 发布日期:2020-05-16
    • 文件大小:726016
    • 提供者:weixin_43975408
  1. Q学习——Q-learning

  2. Q-learning基本原理,即通过几个例子初步了解q学习。
  3. 所属分类:专业指导

    • 发布日期:2012-04-17
    • 文件大小:182272
    • 提供者:rsunon
  1. 基于情绪认知评价理论和Q-learning的人机交互中情感决策

  2. 在情感认知的学习与决策中引入了情绪认知评价理论,提出了基于情绪认知评价理论的人机交互情感决策,对情感行为的选取进行了优化;在情感迷宫模型中,对该决策算法进行了Matlab仿真试验,试验结果表明使用BpQ-learning算法的智能体在寻找目标情感过程中得到的平均奖励值高、试探的次数少,达到了预期的试验目标。
  3. 所属分类:其它

    • 发布日期:2020-06-20
    • 文件大小:340992
    • 提供者:weixin_38629391
  1. Q-LEARNING 算法在控制倒立摆的应用

  2. 这是基于q学习的一个模型,是一个基于倒立摆平衡问题的解决,没有加入神经网络,只是引入一些有限的数据,有不足的地方欢迎大家批评指正,两个函数没有传上去后续补上
  3. 所属分类:电信

    • 发布日期:2020-11-10
    • 文件大小:3072
    • 提供者:capeerrant
  1. 强化学习笔记(4)无模型控制Model-Free Control(On-policy learning, off-policy learning, GLIE, Sarsa, Q-learning)

  2. 文章目录Introduction概念On-Policy learningOff-Policy learningMonte-Carlo Control问题1:使用行为价值函数代替状态价值函数贪婪策略基于行为价值函数的更新:问题2:使用贪婪算法的局限性例解决方案:ϵ−greedy\epsilon-greedyϵ−greedyGLIE定理:GLIE Monte-Carlo Control定理TD ControlSarsa​算法描述定理缺点:Sarsa(λ)Sarsa(\lambda)Sarsa(λ)n
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:519168
    • 提供者:weixin_38503233
  1. Q-Learning:跨多种编程语言测试Q学习实施-源码

  2. Q学习 跨多种编程语言测试Q学习实施 引用:完整示例来自以下YouTube视频: : 计划 从csv读取超参数和矩阵(所有实现均相同) 给定这个矩阵来训练模型 为此定义辅助函数 检查终端 获得随机的开始状态 给定epsilon随机性和最佳argmax下一个状态,可采取下一个动作 获取下一个位置(检查范围等) 得到Q矩阵给定的路径 1000个步骤(可能使它成为超参数)
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:33792
    • 提供者:weixin_42097208
  1. banana-agent:使用Deep Q-Learning收集尽可能多的香蕉的代理商-源码

  2. 代理使用Deep Q-Learning遍历整个香蕉世界,以使得分最大化。 该项目包括可用于训练和测试代理的脚本。 环境 代理被放置在随机放置黄色和蓝色香蕉的方形世界中。 提供+1的奖励以收集黄色香蕉,提供-1的奖励以收集蓝色香蕉。 该代理的目标是收集尽可能多的黄色香蕉,同时避免使用蓝色香蕉。 状态空间具有37个维度,并包含主体的速度以及围绕主体向前方向的物体的基于光线的感知。 提供了四个离散操作,分别对应于: 0向前移动。 1向后移动。 2向左转。 3向右转。 该任务是情节性的,当
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:20971520
    • 提供者:weixin_42132354
  1. Q-Learning-Based Power Control for LTE Enterprise Femtocell Networks

  2. Q-Learning-Based Power Control for LTE Enterprise Femtocell Networks
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:1048576
    • 提供者:weixin_38715097
  1. projectparmorel:我的博士学位论文的项目部分。 Java代码能够使用Q-Learning修复错误的Ecore模型-源码

  2. PARMOREL项目 使用强化学习(PARMOREL)的个性化和自动修复模型。 PARMOREL是一种WIP工具,用于使用强化学习(当前为Q-Learning)来自动修复软件模型。 请注意强化学习算法的随机性,这可能导致不同的执行结果不同。 如果要重置算法的知识,只需删除Knowledge.xml中的所有内容。 联络人: 如何下载项目 克隆项目及其子模块: git clone --recursive 如果您不熟悉子模块,则可以查看或。 确保您正在运行Eclipse版本2018-12
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:4194304
    • 提供者:weixin_42133861
  1. Pong:Zack Griffin和Jacob Mellichamp构建的Pong游戏。 稍后将实施Q-Learning训练机器人-源码

  2. Pong:Zack Griffin和Jacob Mellichamp构建的Pong游戏。 稍后将实施Q-Learning训练机器人
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:33792
    • 提供者:weixin_42153801
  1. QLearning-Taxi:一个旨在学习和修补Q-Learning(入门强化学习技术)的项目-源码

  2. QLearning-Taxi:一个旨在学习和修补Q-Learning(入门强化学习技术)的项目
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:1021952
    • 提供者:weixin_42164534
  1. Deep-Q-Learning:在pytorch中使用Double Deep Q-Learning教AI使其安全降落飞船-源码

  2. 月球兰德 使用pytorch中的Double Deep Q-Learning教AI安全着陆飞船。
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:596992
    • 提供者:weixin_42168265
  1. A Q-learning-based downlink power control algorithm for energy efficiency in LTE femtocells

  2. Femtocell is introduced to improve indoor coverage, which is beneficial for both users and operators. But it will also inevitably produce interference management issues in the heterogeneous network which consists of femtocells and macrocells. In this
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:223232
    • 提供者:weixin_38648968
  1. 基于Q-learning的不确定环境BDI Agent最优策略规划研究

  2. 基于Q-learning的不确定环境BDI Agent最优策略规划研究
  3. 所属分类:其它

    • 发布日期:2021-02-07
    • 文件大小:604160
    • 提供者:weixin_38683930
  1. Q-Learning 源代码及注释(matlab).doc

  2. 基于王子寻找公主的案例详细解释Q-Learning算法的每一条代码
  3. 所属分类:深度学习

    • 发布日期:2021-01-28
    • 文件大小:33792
    • 提供者:qq_40763130
  1. 通过Q-learning深入理解强化学习

  2. 本文来自于csdn,本文将带你学习经典强化学习算法 Q-learning的相关知识,你将学到:(1)Q-learning的概念解释和算法详解;(2)通过 Numpy实现Q-learning。故事案例:骑士和公主 假设你是一名骑士,并且你需要拯救上面的地图里被困在城堡中的公主。你每次可以移动一个方块的距离。敌人是不能移动的,但是如果你和敌人落在了同一个方块中,你就
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:393216
    • 提供者:weixin_38665193
  1. 深度学习算法 Q-learning 原理

  2. Q-learning Q-learning 是 value-based 的方法,在这种方法中我们不是要训练一个 policy,而是要训练一个critic网络。critic 并不直接采取行为,只是对现有的 actor ,评价它的好坏。 Value-Fuction critic 给出了一个 value function ,代表在遇到游戏的某个 state 后,采取策略为的actor  一直玩到游戏结束,所能得到的 reward 之和。  (即critic)的输入是某个state,输出是一个sca
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:1022976
    • 提供者:weixin_38556394
« 1 23 4 5 6 7 8 9 10 ... 14 »