DDPG_TF2：KerasTensorflow 2中的简单深度确定性策略梯度算法（DDPG）实现-

文件名称: DDPG_TF2：KerasTensorflow 2中的简单深度确定性策略梯度算法（DDPG）实现-源码

所属分类: 其它

开发工具:

文件大小: 8kb

下载次数: 0

上传时间: 2021-02-13

提供者: weixin_********

下载 (8kb)

不能下载？报告错误

详细说明：DDPG_TF2 很难在TF2中找到简单整洁的DDPG实现，因此我做了一个。 DDPG DDPG是一种无模型的非策略算法，可在连续动作空间中学习Q函数和策略。它受Deep Q Learning的启发，可以看作是连续acion空间上的DQN。它利用政策外数据和Bellman方程来学习Q函数，然后使用Q函数来推导和学习政策。在DDPG的此实现中，一开始执行n次纯探索（由rand_steps参数指定）。通过在整个范围内均匀分布来选择动作。主要特点：随机（深度）模型估计可提供连续（无限）的动作空间。使用噪声过程（例如， Ornstein–Uhlenbeck过程）进行动作空间探索。使用经验重播可以稳定地学习以前的经验。演员和评论家结构在演员和评论家网络中使用目标模型（通过Polyak平均进行权重转移）。使用Bellman方程描述每对<状态，动作>的最佳q值函数。

(系统自动生成,下载前可以参看下载内容)