搜索资源 - 强化学习值函数 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - 强化学习值函数

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

最新中文深度强化学习综述文章，利于入门学习者理解（兼论计算机围棋的发展）
这是几篇最新中文深度强化学习综述。综述了深度强化学习的发展历程, 兼论计算机围棋的历史, 阐述了3类主要的深度强化学习方法，包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习；其次对深度强化学习领域的一些前沿研究方向进行了综述，包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等．最后总结了深度强化学习在若干领域的成功应用和未来发展趋势。本文是中文深度强化学习综述，更利于入门学习者理解。
所属分类：深度学习
- 发布日期：2018-01-01
- 文件大小：3mb
- 提供者：zhuf14

【AIDL】南京大学俞扬博士：强化学习前沿【PPT完整版】
南京大学俞扬副教授在第二期《人工智能前沿讲习班》的报告完整PPT，内容包括强化学习的概念、主要算法类型和应用等，值得反复精读，目录如下：一、介绍（Introduction）二、马尔可夫决策过程（Markov Decision Process）三、从马尔可夫决策过程到强化学习（from Markov Decision Process to Reinforce Learning）四、值函数估计（Value function approximation）五、策略搜索（Policy Sear
所属分类：深度学习
- 发布日期：2018-03-03
- 文件大小：23mb
- 提供者：zhuf14

微软亚洲研究院秦涛_强化学习PPT
近年来，强化学习特别是深度强化学习在棋类、视屏游戏、机器人控制等问题上取得了极大的成功，成为人工智能研究的热点。微软亚洲研究院的秦涛研究员在报告《强化学习简介》中对强化学习做一个简要介绍。该报告分为3个部分： 1、强化学习基础，包括: 马氏决策过程 Bellman方程规划最优控制蒙特卡洛采样 TD算法 2、强化学习新算法，包括: 基于值函数的算法基于策略函数的算法基于两者的混合算法 3、强化学习所面临的挑战，如鲁棒性、样本效率等
所属分类：机器学习
- 发布日期：2018-10-31
- 文件大小：7mb
- 提供者：zpf1002

Reinforcement Learning An Introduction~Summary of Notation
强化学习导论符号摘要，大写字母表示随机变量，反之小写字母表示随机变量的值和标量函数的值。需要为实值向量的量以粗体和小写字母书写（即使是随机变量）。矩阵是粗体大写字母。
所属分类：深度学习
- 发布日期：2018-11-15
- 文件大小：20kb
- 提供者：coolsunxu

2018-深度强化学习综述
深度强化学习是人工智能领域的一个新的研究热点．它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制．自提出以来，在许多需要感知高维度原始输入数据和决策控制的任务中，深度强化学习方法已经取得了实质性的突破．该文首先阐述了三类主要的深度强化学习方法，包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习；其次对深度强化学习领域的一些前沿研究方向进行了综述，包括分层深度强化学习、多任务迁移深度强化学
所属分类：深度学习
- 发布日期：2019-01-06
- 文件大小：2mb
- 提供者：qq_23100417

强化学习代码和课件.zip
强化学习课件，强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [1] 。强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process, MDP）。按给定条件，强化学习可分为基于模式的强化学习（model-based RL）和无模式强化学习（model-free RL） [1]
所属分类：C/C++
- 发布日期：2020-08-13
- 文件大小：75mb
- 提供者：qq_18822147

基于值函数和策略梯度的深度强化学习综述_刘建伟.pdf
作为人工智能领域的热门研究问题，深度强化学习自提出以来，就受到人们越来越多的关注。目前，深度强化学习能够解决很多以前难以解决的问题，比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略，深度强化学习通过不断优化控制策略，建立一个对视觉世界有更高层次理解的自治系统。其中，基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点。本文对这两类深度强化学习方法进行了系统的阐述和总结，包括用到的求解算法和网络结构。首先，概述了基于值函数的深度强化学习方法，包括开山鼻祖深度Q 网
所属分类：机器学习
- 发布日期：2020-09-01
- 文件大小：1mb
- 提供者：SparkQiang

基于值函数估计的强化学习算法研究_陈兴国.caj
基于值函数估计的强化学习算法研究_陈兴国.caj基于值函数估计的强化学习算法研究_陈兴国.caj基于值函数估计的强化学习算法研究_陈兴国.caj基于值函数估计的强化学习算法研究_陈兴国.caj
所属分类：金融
- 发布日期：2020-11-19
- 文件大小：11mb
- 提供者：qq_18822147

强化学习笔记（1）
强化学习与监督学习的区别：（1）训练数据中没有标签，只有奖励函数（Reward Function）。（2）训练数据不是现成给定，而是由行为（Action）获得。（3）现在的行为（Action）不仅影响后续训练数据的获得，也影响奖励函数（Reward Function）的取值。（4）训练的目的是构建一个“状态->行为”的函数，其中状态（State）描述了目前内部和外部的环境，在此情况下，要使一个智能体（Agent）在某个特定的状态下，通过这个函数，决定此时应该采取的行为。希望采取这些
所属分类：其它
- 发布日期：2021-01-06
- 文件大小：241kb
- 提供者：weixin_38502510

alpha-bomber:我们正在开发最先进的强化学习技术，以解决Bomberman的古老游戏-源码
机器学习基础知识2020/2021的最终项目代码模板：：我们的任务：我们正在开发最先进的强化学习技术，以解决Bomberman的古老游戏。强化学习-快速概述：常见的RL方法可以分为基于策略和基于价值的方法。值方法输出代表当前状态质量的值，并在值迭代过程中学习。从选择随机值函数开始，此过程将迭代地改进该函数，直到达到最佳值函数为止。然后可以从该函数中得出最佳策略。另一方面，基于策略的方法旨在直接改善代理的策略，即状态与行为之间的映射。流行的方法有：（深度）Q学习（值方法）策略梯
所属分类：其它
- 发布日期：2021-03-22
- 文件大小：4mb
- 提供者：weixin_42127754

基于在线选择性核的时间差异学习
在本文中，提出了一种在线的基于核的选择性时差（OSKTD）学习算法，以解决大规模和/或连续的强化学习问题。 OSKTD包括两个在线过程：在线稀疏化和针对基于内核的选择性值函数的参数更新。提出了一种基于选择性集成学习的稀疏化方法（即基于核距离的在线稀疏化方法），该方法与其他稀疏化方法相比，计算复杂度较低。使用所提出的稀疏化方法，通过检查是否需要将样本添加到稀疏化字典中来在线构建样本稀疏字典。另外，基于局部有效性，提出了一种基于选择性核的价值函数，从样本字典中选择最佳样本作为基于选择性核的价值
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：490kb
- 提供者：weixin_38641339

deep_q_learning:强化学习实验的集合。目前，仅由Deep Q Learning组成，但willl最终包含其他人-源码
深度Q强化学习描述强化学习可以用作训练代理在给定环境下玩游戏的技术。 Q学习是强化学习的一种简单类型，由此创建了一个“ Q表”，其中包含AI对每个游戏状态下代理可使用的每个动作的“质量”（因此称为名称）的估计。当代理人玩游戏并收集更多信息时，它将使用新的estimage更新Q表。 Q学习是简单而有效的，但不能扩展-在最简单的游戏中，除了所有最简单的游戏之外，状态空间（即环境状态的所有可能组合的数量）变得太大，以至于简单的查询表无法生效。 Q表实际上只是估算Q函数的一种方法。即，将游戏状
所属分类：其它
- 发布日期：2021-03-10
- 文件大小：14mb
- 提供者：weixin_42128537

alpha-bomber：我们正在开发最先进的强化学习技术，以解决Bomberman的古老游戏-源码
机器学习基础知识2020/2021的最终项目代码模板：：我们的任务：我们正在开发最先进的强化学习技术，以解决Bomberman的古老游戏。强化学习-快速概述：常见的RL方法可以分为基于策略和基于价值的方法。值方法输出代表当前状态质量的值，并在值迭代过程中学习。从选择随机值函数开始，此过程将迭代地改进该函数，直到达到最佳值函数为止。然后可以从该函数中得出最佳策略。另一方面，基于策略的方法旨在直接改善代理的策略，即状态与行为之间的映射。流行的方法有：（深度）Q学习（
所属分类：其它
- 发布日期：2021-03-04
- 文件大小：4mb
- 提供者：weixin_42178688

深度强化学习——DQN
本文来自于csdn，本文章主要介绍了深度学习与强化学习结合起来从而实现从感知（Perception）到动作（Action）的端对端（End-to-end）学习的一种全新的算法。原因：在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。通常做法是把Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作。如下式，通过更新参数θθ使Q函数逼近最优Q值而深度神经网络可
所属分类：其它
- 发布日期：2021-02-24
- 文件大小：395kb
- 提供者：weixin_38642636

DeepRL：基于UC Berkeley的CS285的深度强化学习笔记-源码
深度强化学习说明：注释内容基于加州大学伯克利分校的CS285。内容清单简介与概述行为监督学习 Tensorflow和神经网络强化学习导论政策梯度演员关键算法值函数方法具有Q功能的Deep RL 高级策略梯度基于模型的计划基于模型的强化学习基于模型的政策学习变异推理和生成模型控制为推理逆向强化学习转移和多任务学习分布式RL 探索（第1部分）探索（第2部分）元学习信息论，未解决的问题
所属分类：其它
- 发布日期：2021-02-17
- 文件大小：5mb
- 提供者：weixin_42124743

rubik：学习如何使用强化学习来解决魔方-源码
魔方学习如何使用强化学习来解决魔方状态模型正在学习一些东西。我尝试调整模型的结构，但无法达到低于18的损失，这似乎很高。仅需1个深度的贪婪搜索就足以解决5次旋转扰乱的多维数据集。下一步：在get_td_value_examples和贪婪求解器中批量调用模型。实施A *。进一步调查模型的行为：比损失多的指标（例如平均L1误差）通过标签对度量进行切片：我们是否更擅长将立方体距已解决状态更近或更远？以1 / {为打乱而进行的旋转次数}为单位进行举重训练示例。
所属分类：其它
- 发布日期：2021-02-16
- 文件大小：95kb
- 提供者：weixin_42120541

强化学习：SARSA，SARSA-Lambda的实现以及函数逼近来解决一系列开放式AI Gym环境-源码
项目概况：该项目使用强化学习来解决出租车和山地车Open AI体育馆的问题。对于出租车，可以在（）上详细探讨目标。对于山地车，可以在（）上详细探讨目标。为了解决出租车问题，我实现了SARSA和SARSA Lambda算法。对于山地车问题，我将SARSA Lambda与函数逼近合并（使用傅立叶基础函数）。运行说明： python3 taxi_sarsa.py 将执行SARSA学习算法，并将q值和策略保存到.npy文件。。注意：先前的学习序列中的存储库中已经包含一组
所属分类：其它
- 发布日期：2021-02-15
- 文件大小：98kb
- 提供者：weixin_42119358

softlearning：Softlearning是用于在连续域中训练最大熵策略的强化学习框架。包括Soft Actor-Critic算法的正式实现-源码
软学习软学习是一种深度强化学习工具箱，用于在连续域中训练最大熵策略。该实现相当薄，并且主要针对我们自己的开发目的进行了优化。对于大多数模型类（例如策略和值函数），它都使用tf.keras模块。我们使用Ray进行实验编排。 Ray Tune和Autoscaler实现了几项简洁的功能，使我们能够无缝运行与用于本地原型制作的实验脚本相同的实验脚本，以在任何选定的云服务（例如GCP或AWS）上启动大规模实验，并智能地并行化和分发培训以提高效率。资源分配。此实现使用Tensorflow。对于
所属分类：其它
- 发布日期：2021-02-04
- 文件大小：157kb
- 提供者：weixin_42120550

maintenance_learning_course_materials：讲义，包括解决方案的教程任务以及帕德博恩大学举办的强化学习课程的在线视频-源码
强化学习课程资料讲义，教程任务（包括解决方案）以及帕德博恩大学主办的强化学习课程的在线视频。整个课程材料的源代码是开放的，我们诚挚地邀请所有人使用它进行自学（学生）或设置自己的课程（讲师）。演讲内容强化学习导论马尔可夫决策过程动态编程蒙特卡洛方法时差学习 n步自举使用表格方法进行计划和学习监督学习下的函数逼近函数逼近的策略上预测基于函数的基于值的控制资格跟踪政策梯度法第一部分摘要：有限状态和动作空间中的强化学习第二部分摘要：课程完成和展望全部课程幻灯片练习内
所属分类：其它
- 发布日期：2021-02-03
- 文件大小：65mb
- 提供者：weixin_42102272

 基于强化学习的飞行自动驾驶仪设计
针对强化学习在连续状态连续动作空间中的维度灾难问题，利用BP神经网络算法作为值函数逼近策略，设计了自动驾驶仪。并引入动作池机制，有效避免飞行仿真中危险动作的发生。首先，建立了TD强化学习算法框架；然后根据经验将舵机动作合理分割为若干组，在不同的飞行状态时，调取不同组中的动作；其次，构建了BP神经网络，通过飞行过程中的立即奖赏，更新网络的值函数映射；最后，通过数字仿真验证了强化学习自动驾驶仪的性能，仿真结果表明，该算法具有良好的动态和稳态性能。
所属分类：其它
- 发布日期：2021-01-30
- 文件大小：822kb
- 提供者：weixin_38706951

« 12 3 »