您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. HTML5(时代来临,同事们还等什么?上啊不然就out了!)

  2. html5 求助编辑百科名片 HTML5是用于取代1999年所制定的 HTML 4.01 和 XHTML 1.0 标准的 HTML 标准版本,现在仍处于发展阶段,但大部分浏览器已经支持某些 HTML5 技术。HTML 5有两大特点:首先,强化了 Web 网页的表现性能。其次,追加了本地数据库等 Web 应用的功能。广义论及HTML5时,实际指的是包括HTML、CSS和Javascr ipt在内的一套技术组合。它希望能够减少浏览器对于需要插件的丰富性网络应用服务(plug-in-based ri
  3. 所属分类:网管软件

    • 发布日期:2013-03-23
    • 文件大小:195kb
    • 提供者:yuanleibin
  1. C++网络爬虫项目

  2. WEBCRAWLER 网络爬虫实训项目 1 WEBCRAWLER 网 络 爬 虫 实 训 项 目 文档版本: 1.0.0.1 编写单位: 达内IT培训集团 C++教学研发部 编写人员: 闵卫 定稿日期: 2015年11月20日 星期五WEBCRAWLER 网络爬虫实训项目 2 1. 项目概述 互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是 以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技 术含量的产品,如果不是唯一,至少也是其中之一。 经过十几年的发展
  3. 所属分类:C/C++

    • 发布日期:2018-07-04
    • 文件大小:4mb
    • 提供者:qq15690515
  1. slimevolleygym:用于单人和多人强化学习的简单OpenAI Gym环境-源码

  2. 史莱姆排球体育馆环境 史莱姆排球是由一位不知名的作家在2000年代初期创建的游戏。 “游戏的物理原理有点'狡猾',但其简单的游戏玩法却立即使人上瘾。” SlimeVolleyGym是一个简单的健身房环境,用于测试单人和多人强化学习算法。 游戏非常简单:代理人的目标是使球着陆在对手方的地面上,从而使对手丧生。每个特工从五个生命开始。当任何一个特工失去全部五个生命时,或者经过3000个时间步长后,情节结束。座席失去对手时会获得+1的奖励,而失去生命则会获得-1的奖励。 该环境基于我于创建Java
  3. 所属分类:其它

  1. AlphaSnake-Zero:基于AlphaGo Zero的算法的增强型学习AI,可以玩同步策略游戏《战栗》-源码

  2. 介绍 有关算法的详细说明,请检查。 抽象的 最近,有关强化学习的研究很多。 Q学习或DQN试图解决单人与环境的问题,而AlphaGo等其他方法则尝试双人游戏。在这个项目中,我们尝试找到一种算法来生成在多主体同步策略游戏中表现良好的主体。尽管此项目特定于称为Battlesnake的游戏,但我们使用的方法和算法不限于此。数学适用于具有有限状态和动作空间的任何同步游戏。 要求: 的Python 3.7.6 NumPy 1.18.1 TensorFlow 2.1.0 指示: 转到“代码”文件夹并运行
  3. 所属分类:其它

  1. DeepCoMP:使用(多主体)深度强化学习的协作多点(CoMP)动态多单元选择-源码

  2. DeepCoMP:协作多点(CoMP)的自学习动态多小区选择 在CoMP场景中进行动态多小区选择的深度强化学习。 三种变体:DeepCoMP(中央代理),DD-CoMP(使用中央策略的分布式代理),D3-CoMP(具有单独策略的分布式代理)。 这三种方法都可以自学并适应移动网络中的各种情况,而无需专家知识,人为干预或对底层系统的详细假设。 与其他方法相比,它们更加灵活,并且可以实现更高的体验质量。 经过2M训练步骤后,DeepCoMP的可视化小区选择策略。 来自Noun Project的Cl
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:25mb
    • 提供者:weixin_42134234
  1. drone_search:多主体深度强化学习算法-源码

  2. drone_search 多主体深度强化学习算法
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:551kb
    • 提供者:weixin_42097914
  1. drl_p2_continuous-control-源码

  2. drl_p2_continuous-control 该存储库的内容表示“ Udacity深度强化学习”课程的项目2。 在此项目中,我们正在解决由控制双关节手臂的运动组成的触手环境。 通过在此双关节臂上执行操作,我们可以了解最佳控制策略。 为了执行此训练,我们使用深度确定性策略梯度(DDPG)算法。 我们在多主体情况下解决该算法,目标是使用20个主体,至少连续100次情节维持+30的奖励。 可以通过打开笔记本的Continuous_Control.ipynb并运行所有单元格来运行代码。 多代
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:471kb
    • 提供者:weixin_42128315
  1. agar:这是Agar.io环境的源代码-源码

  2. 琼脂 是一种流行的多人在线游戏。 玩家控制培养皿中的一个或多个细胞。 目的是通过吃掉比玩家的细胞小的细胞来获得尽可能多的质量,同时避免被更大的细胞吞噬。 较大的细胞移动较慢。 每个玩家都从一个单元开始,但是可以将足够大的单元分成两部分,从而可以控制多个单元。 该控制是通过鼠标移动来执行的:播放器的所有单元都朝着鼠标位置移动。 我们将Agar( )的“全民免费(FFA)”模式转换为“强化学习(RL)”环境,我们认为它可以用作新的多主体RL测试平台一系列问题,例如合作,团队组成,意图建模等。
  3. 所属分类:其它

  1. Reiforcement-Learning-Udacity-p1---Navigation-源码

  2. 项目1:导航 介绍 该项目包含Udacity深度强化学习的第一个项目的解决方案。 提供+1的奖励以收集黄色香蕉,提供-1的奖励以收集蓝色香蕉。 因此,代理商的目标是尽可能多地收集黄色香蕉,同时避免使用蓝色香蕉。 状态空间具有37个维度,并包含主体的速度以及围绕主体向前方向的物体的基于光线的感知。 有了这些信息,代理就必须学习如何最好地选择动作。 提供了四个离散操作,分别对应于: 0向前移动。 1向后移动。 2向左转。 3向右转。 该任务是情节性的,并且为了解决环境,您的特工必须在1
  3. 所属分类:其它

    • 发布日期:2021-03-09
    • 文件大小:464kb
    • 提供者:weixin_42133899
  1. DRLND-Project-Navigation:Udacity深度强化学习专家纳米学位的第一个项目-收集黄色香蕉-源码

  2. 原始存储库可在此处找到 项目1:导航 介绍 对于此项目,您将训练一个代理商在一个大型的方形世界中导航(并收集香蕉!)。 提供+1的奖励以收集黄色香蕉,提供-1的奖励以收集蓝色香蕉。 因此,代理商的目标是尽可能多地收集黄色香蕉,同时避免使用蓝色香蕉。 状态空间具有37个维度,并包含主体的速度以及围绕主体向前方向的物体的基于光线的感知。 有了这些信息,代理就必须学习如何最好地选择动作。 提供了四个离散操作,分别对应于: 0向前移动。 1向后移动。 2向左转。 3向右转。 该任务是情节性
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:124kb
    • 提供者:weixin_42144554
  1. RPG:这是RPG(奖励随机化策略梯度)的源代码-源码

  2. RPG(奖励随机化政策梯度) 汤正刚*,赵超*,陈伯元,徐华哲,王小龙,方飞,西蒙·邵雷,王玉,吴仪(*均分) **网站:** 这是RPG(奖励随机化政策梯度)的源代码,该论文在“通过奖励随机化发现多样化的多主体策略行为” [[TODO:arxiv链接]](arxiv链接)中提出。 1.支持的环境 1.1琼脂 ![Agar.io]( ) 是一种流行的多人在线游戏。 玩家控制培养皿中的一个或多个细胞。 目的是通过吃掉比玩家的细胞小的细胞来获得尽可能多的质量,同时避免被更大的细胞吞噬。 较
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:193kb
    • 提供者:weixin_42133452
  1. mlprague-2021:MLPrague 2021研讨会的材料-源码

  2. MLPrague 2020-如何制定数据驱动型决策:情境多臂匪徒的案例 其他名称:联想强化学习,联想土匪,带有部分反馈的学习,具有辅助信息的土匪 强化学习的要素 除了主体和环境之外,还可以识别强化学习系统的四个主要子元素:策略,奖励信号,价值函数以及(可选)环境模型。 策略-定义学习代理在给定时间的行为方式。 粗略地说,策略是从感知到的环境状态到处于这些状态时要采取的措施的映射。 它对应于心理学中所谓的一组刺激-React规则或联想。 在某些情况下,策略可能是简单的函数或查找表,而在其他情况下
  3. 所属分类:其它

  1. DRLND-Navigation:基于价值的方法。 将深度学习架构应用于强化学习任务。 训练自己的代理,从感官数据导航虚拟世界-源码

  2. 项目1:导航 介绍 对于此项目,您将训练一个代理商在一个大而方形的世界中导航(并收集香蕉!)。 提供+1的奖励以收集黄色香蕉,提供-1的奖励以收集蓝色香蕉。 因此,代理商的目标是尽可能多地收集黄色香蕉,同时避免使用蓝色香蕉。 状态空间具有37个维度,并包含主体的速度以及围绕主体前进方向的对象的基于射线的感知。 有了这些信息,代理必须学习如何最好地选择动作。 提供了四个离散操作,分别对应于: 0前进。 1向后移动。 2向左转。 3向右转。 该任务是情节性的,并且为了解决环境,您的代理
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:27mb
    • 提供者:weixin_42143806
  1. PettingZoo:用于多主体强化学习的健身房-源码

  2. PettingZoo是一个Python库,用于进行多主体强化学习的研究。 它类似于OpenAI的Gym库的多代理版本。 我们的网站(包含全面的文档)是 环境与安装 PettingZoo包括以下环境系列: :多人Atari 2600游戏(合作和竞争) :我们开发的合作图形游戏,需要高度的协调 游戏:经典游戏,包括纸牌游戏,棋盘游戏等。 :具有大量粒子代理的可配置环境,最初来自 :一组简单的非图形通信任务,最初来自 :3种合作环境,最初来自 要安装pettingzoo基本库,请
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:38mb
    • 提供者:weixin_42123456
  1. banana_navigator:Udacity的深度强化学习纳米学位的第一个项目-源码

  2. 项目1:导航 介绍 这是我为Udacity的“深度强化学习纳米学位”所做的第一个项目,在该项目中,我训练了一个特工来导航一个世界,收集黄色而不是蓝色的香蕉。 这是Udacity对项目环境的描述: 提供+1的奖励以收集黄色香蕉,提供-1的奖励以收集蓝色香蕉。 因此,代理商的目标是尽可能多地收集黄色香蕉,同时避免使用蓝色香蕉。 状态空间具有37个维度,并包含主体的速度以及围绕主体前进方向的对象的基于射线的感知。 有了这些信息,代理必须学习如何最好地选择动作。 提供了四个离散操作,分别对应于:
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:168kb
    • 提供者:weixin_42177768
  1. 多主体强化学习-源码

  2. Udacity深度强化学习纳米学位-项目3:合作与竞争 介绍 对于这个Udacity项目,我使用了一个DDPG代理来解决多代理协作环境。 在这种环境下,两名特工控制球拍在球网上弹跳球。 如果探员将球击中网,则得到+0.1的奖励。 如果探员让一个球击中地面或越界将球击中,则其收益为-0.01。 因此,每个特工的目标是保持比赛中的球权。 观察空间由8个变量组成,分别对应于球和球拍的位置和速度。 每个代理都会收到自己的本地观察结果。 有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。
  3. 所属分类:其它

  1. rl-medical:使用PyTorch进行通信性多主体深度强化学习以进行解剖地标检测-源码

  2. RL医疗 使用PyTorch进行解剖标志检测的多主体深度强化学习。 这是用于的纸上的代码。 介绍 准确检测解剖标志是几个医学成像任务中必不可少的步骤。 该存储库实施了一种新颖的通信多主体强化学习(C-MARL)系统,以自动检测3D医学图像中的界标。 C-MARL通过在所有代理之间共享体系结构的某些权重,使代理能够学习显式通信信道以及隐式通信信号。 除了C-MARL,该代码还支持没有通信通道的单代理和多代理(名为Network3d)。 这段代码最初是一个fork。 为了方便起见,在data文件
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:96mb
    • 提供者:weixin_42131861
  1. RTG:营救一般游戏-源码

  2. 营救将军 健身房的混合竞争,合作,多主体强化学习环境。 要在单个GPU上依次运行ICML论文的结果 python ICML_paper_experiments.py 为了获得更快的结果,请在多个GPU上并行执行每次运行,并适当设置--device。 如果每张卡同时运行两个作业,则在4个RTX2080上这将需要4-5天。
  3. 所属分类:其它

    • 发布日期:2021-02-08
    • 文件大小:83kb
    • 提供者:weixin_42118160
  1. MAgent:多主体强化学习平台-源码

  2. 该项目不再维护 请参阅 ,以获取该项目的维护分支,该分支可以通过pip安装。 代理 MAgent是用于多主体强化学习的研究平台。 与以前的研究平台侧重于仅使用一个代理或仅几个代理进行强化学习研究的平台不同,MAgent旨在支持从数百个代理扩展到数百万个代理的强化学习研究。 AAAI 2018演示文件: 观看了解一些有趣的案例。 这是战斗情况的两个直接演示。 需求 MAgent支持运行Python 2.7或python 3Linux和OSX。我们不对代理的结构做任何假设。 您可以编写基于规则的
  3. 所属分类:其它

  1. RL-Taxonomy:强化学习算法的宽松分类法-源码

  2. RL分类法 这是强化学习算法的宽松分类法。我绝不是这方面的专家,我正在将其作为学习过程的一部分。请注意,这里列出的算法比这里列出的要多得多,而且我什至不知道如何对它们进行分类。无论如何,请PR改正或提出新建议。 请注意,此文件是由taxonomy.py生成的。 目录: 分类 以下是强化学习算法的分类。实线表示从一个想法到另一个想法的某种进展。虚线表示连接松动。在底部,您可以看到算法发布年份的时间表。 建议在新窗口中打开.SVG文件,因为将鼠标悬停在该算法上将显示包含该算法描述的工具提示,单击该节
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:89kb
    • 提供者:weixin_42151305