您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 一种用于连续动作空间的最小二乘行动者-评论家方法

  2. 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者一评论家方法(1east square actor—critic algorithm,I。SAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:2097152
    • 提供者:weixin_38749268
  1. 一种用于连续动作空间的最小二乘行动者-评论家方法

  2. 解决具有连续动作空间的问题是当前强化学习领域的一个研究热点和难点.在处理这类问题时,传统的强化学习算法通常利用先验信息对连续动作空间进行离散化处理,然后再求解最优策略.然而,在很多实际应用中,由于缺乏用于离散化处理的先验信息,算法效果会变差甚至算法失效.针对这类问题,提出了一种最小二乘行动者一评论家方法(1east square actor—critic algorithm,I。SAC),使用函数逼近器近似表示值函数及策略,利用最小二乘法在线动态求解近似值函数参数及近似策略参数,以近似值函数作为
  3. 所属分类:其它

    • 发布日期:2021-04-01
    • 文件大小:524288
    • 提供者:weixin_38751014