3_Monte-Carlo_RL
文章目录1.1. 前言1.1.1. 算法特性1.1.2. 目标1.2. 两种Monte-Carlo 估计价值函数1.2.1. First Visit1.2.2. Every Visit1.2.3. 小tips: Incremental Mean1.3. Monte Carlo Control (Approximate optimal policies)1.3.1. Over all idea2. Temporal-difference reinforcement
针对深度强化学习算法中经验缓存机制构建问题,提出一种基于TD误差的重抽样优选缓存机制;针对该机制存在的训练集坍塌现象,提出基于排行的分层抽样算法进行改进,并结合该机制对已有的几种典型基于DQN的深度强化学习算法进行改进.通过对Open AI Gym平台上Cart Port学习控制问题的仿真实验对比分析表明,优选机制能够提升训练样本的质量,实现对值函数的有效逼近,具有良好的学习效率和泛化性能,收敛速度和训练性能均有明显提升.