细化策略的功能表示强化学习旨在从与环境的互动中学习策略，以最大化长期回报。在实践中，我们通常期望策

文件名称: 细化策略的功能表示

所属分类: 其它

开发工具:

文件大小: 632kb

下载次数: 0

上传时间: 2021-02-26

提供者: weixin_********

下载 (632kb)

不能下载？报告错误

详细说明：强化学习旨在从与环境的互动中学习策略，以最大化长期回报。在实践中，我们通常期望策略可以是从状态特征到候选动作的非线性映射，因此具有适应复杂决策情况的能力。功能表示（通过功能表示将功能表示为基本功能的组合）是学习非线性功能的强大工具，并且已在策略学习中使用（例如，非参数策略梯度（NPPG）方法）。尽管功能表示具有许多独特的优点，但是功能表示策略包含大量基础功能仍然存在实际缺陷，因此在学习许多构成基础功能时，策略学习算法将花费大量时间。由于要不断评估复杂的策略，因此该缺陷将严重妨碍功能表示在实际中用于强化学习任务。在这项工作中，我们提出了小睡机制来提高使用功能表示的效率，该功能通过简单的近似模型以及学习过程来周期性地简化生成的函数。我们将小睡机制整合到NPPG算法中，并进行了实证研究。实验结果表明，带小睡的NPPG不仅可以大大提高原始NPPG的训练和预测速度，而且可以显着提高性能。

(系统自动生成,下载前可以参看下载内容)