点数信息
www.dssz.net
注册会员
|
设为首页
|
加入收藏夹
您好,欢迎光临本网站!
[请登录]
!
[注册会员]
!
首页
移动开发
云计算
大数据
数据库
游戏开发
人工智能
网络技术
区块链
操作系统
模糊查询
热门搜索:
源码
Android
整站
插件
识别
p2p
游戏
算法
更多...
在线客服QQ:632832888
当前位置:
资源下载
搜索资源 - a3c代码
下载资源分类
移动开发
开发技术
课程资源
网络技术
操作系统
安全技术
数据库
行业
服务器应用
存储
信息化
考试认证
云计算
大数据
跨平台
音视频
游戏开发
人工智能
区块链
在结果中搜索
所属系统
Windows
Linux
FreeBSD
Unix
Dos
PalmOS
WinCE
SymbianOS
MacOS
Android
开发平台
Visual C
Visual.Net
Borland C
CBuilder
Dephi
gcc
VBA
LISP
IDL
VHDL
Matlab
MathCAD
Flash
Xcode
Android STU
LabVIEW
开发语言
C/C++
Pascal
ASM
Java
PHP
Basic/ASP
Perl
Python
VBScript
JavaScript
SQL
FoxBase
SHELL
E语言
OC/Swift
文件类型
源码
程序
CHM
PDF
PPT
WORD
Excel
Access
HTML
Text
资源分类
搜索资源列表
强化学习算法汇总.rar
代码中包含13种强化学习算法,所调用的环境不仅包含gym下面的一些简单环境,还可以自己设计环境(简单的迷宫游戏),简洁明了,适合算法学习的同学使用,其中A3C与PPO还涉及了并行运算的算法。
所属分类:
机器学习
发布日期:2019-12-31
文件大小:3mb
提供者:
circleyuanquan
rl_a3c_pytorch, A3C LSTM Atari与Pytorch加3g设计.zip
rl_a3c_pytorch, A3C LSTM Atari与Pytorch加3g设计 新增加的3g A3G新的gpu/cpu架构,以大大加速训练 ! A3C Pytorch 新添加的3g !利用GPU提高训练速度的A3C新实现。 我们可以拨打 3g电话。 它的他版本的A3C相反,每个代理都有自己的
所属分类:
其它
发布日期:2019-10-09
文件大小:29mb
提供者:
weixin_38744270
alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码
机器学习基础知识2020/2021的最终项目代码模板: : 我们的任务:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏。 强化学习-快速概述: 常见的RL方法可以分为基于策略和基于价值的方法。值方法输出代表当前状态质量的值,并在值迭代过程中学习。从选择随机值函数开始,此过程将迭代地改进该函数,直到达到最佳值函数为止。然后可以从该函数中得出最佳策略。 另一方面,基于策略的方法旨在直接改善代理的策略,即状态与行为之间的映射。 流行的方法有: (深度)Q学习(值方法) 策略梯
所属分类:
其它
发布日期:2021-03-22
文件大小:4mb
提供者:
weixin_42127754
NTU-ReinforcementLearning-Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记-源码
李宏毅深度强化学习笔记 课程主页: 视频: 李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最佳奖励出发,直接引出政策梯度(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C,DDPG),紧接着介绍了一些Reward Shaping的方法(主要是好奇心,课程学习,分层学习) ,,最后介绍模仿学习(逆RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种值迭代的思路
所属分类:
其它
发布日期:2021-03-12
文件大小:4mb
提供者:
weixin_42127369
alpha-bomber:我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏-源码
机器学习基础知识2020/2021的最终项目代码模板: : 我们的任务: 我们正在开发最先进的强化学习技术,以解决Bomberman的古老游戏。 强化学习-快速概述: 常见的RL方法可以分为基于策略和基于价值的方法。 值方法输出代表当前状态质量的值,并在值迭代过程中学习。 从选择随机值函数开始,此过程将迭代地改进该函数,直到达到最佳值函数为止。 然后可以从该函数中得出最佳策略。 另一方面,基于策略的方法旨在直接改善代理的策略,即状态与行为之间的映射。 流行的方法有: (深度)Q学习(
所属分类:
其它
发布日期:2021-03-04
文件大小:4mb
提供者:
weixin_42178688
AI4U:AI4U提供了一种将python代码与Unity游戏连接的简便方法。 这样,您可以使用整个可用的Python机器学习文化,通过Unity来实验机器学习算法和人工智能-源码
什么是AI4U? AI4U是将Unity应用程序连接到Python代码的一种简洁方便的方法。 因此,可以使用AI4U插件将游戏和虚拟现实应用程序连接到以Python编写的庞大库中。 而且,One提供了与OpenAI实施的最新算法(例如PPO和PPO2)的集成。 因此,对AI4U感兴趣的人可以使用OpenAI研究人员提供的最新进展。 产品特点 一些例子。 支持多种环境配置和培训方案 可以集成到您的游戏或自定义Unity场景中的灵活SDK 与API无关,但其中一种支持由基础实现的所有算法。
所属分类:
其它
发布日期:2021-02-06
文件大小:26mb
提供者:
weixin_42165583
Super-mario-bros-A3C-pytorch:超级马里奥兄弟的异步优势Actor-Critic(A3C)算法-源码
[PYTORCH]扮演超级马里奥兄弟的非同步优势演员评判(A3C) 介绍 这是我的python源代码,用于训练特工玩超级马里奥兄弟。 通过使用纸异步方法用于深强化学习引入异步优势演员,评论家(A3C)算法。 样品结果 动机 在我实施该项目之前,有多个存储库可以很好地重现本文的结果,这些存储库可以在Tensorflow,Keras和Pytorch等不同的常见深度学习框架中进行。 我认为,其中大多数都很棒。 但是,它们似乎在许多方面都过于复杂,包括图像的预处理,环境设置和权重初始化,这使
所属分类:
其它
发布日期:2021-02-05
文件大小:300mb
提供者:
weixin_42100129
神经本地化:训练RL代理主动进行本地化(PyTorch)-源码
主动神经定位 这是ICLR-18文件的PyTorch实现: Devendra Singh Chaplot,Emilio Parisotto,Ruslan Salakhutdinov 卡内基·梅隆大学 项目网站: : 该存储库包含: Maze2D环境的代码,该代码会生成随机2D迷宫以进行主动定位。 用于使用A3C在Maze2D环境中训练主动神经定位代理的代码。 依存关系 (v0.3) 用法 训练 要在7x7迷宫上训练16条线程的主动神经定位A3C代理,最大情节长度为30: pytho
所属分类:
其它
发布日期:2021-02-04
文件大小:12mb
提供者:
weixin_42166918
minimalRL:用最少的代码行实现基本的RL算法! (基于火炬)-源码
最小RL 用最少的代码行实现基本的RL算法! (基于PyTorch) 每种算法都在一个文件中完成。 每个文件的长度最多为100〜150行代码。 即使没有GPU,也可以在30秒内训练每种算法。 Env固定为“ CartPole-v1”。 您可以只关注实现。 演算法 (67行) (98行) (112行,包括重放内存和目标网络) (119条线,包括GAE) (145行,包括OU噪声和软目标更新) (129条线) (149条线) (188条线) (171行)已添加
所属分类:
其它
发布日期:2021-02-03
文件大小:18kb
提供者:
weixin_42121725
带有火炬的深度增强学习:DQN,AC,ACER,A2C,A3C,PG,DDPG,TRPO,PPO,SAC,TD3和PyTorch实施...-源码
状态:活动(在活动开发中,可能会发生重大更改) 该存储库将实现经典且最新的深度强化学习算法。 该存储库的目的是为人们提供清晰的pytorch代码,以供他们学习深度强化学习算法。 将来,将添加更多最先进的算法,并且还将保留现有代码。 要求 python = 0.10 火炬> = 0.4 请注意,tensorflow不支持python3.7 安装 pip install -r requirements.txt 如果失败: 安装健身房 pip install gym 安装pytorc
所属分类:
其它
发布日期:2021-01-30
文件大小:5mb
提供者:
weixin_42131443