© 1999-2048 dssz.net 粤ICP备11031372号
[其它] udacity_drl_project_3-源码
说明:项目3:合作与竞争 介绍 在这个项目中,我们训练了一个深度强化学习者,在Unity环境中打网球。可以在找到更详细描述解决方案的报告。 在这种环境下,两名特工控制球拍在球网上弹跳球。如果探员将球击中网,则得到+0.1的奖励。如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。因此,每个特工的目标是保持比赛中的球权。 状态与行动空间 状态空间由8个变量组成,分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳<weixin_42114645> 上传 | 大小:1mb