© 1999-2048 dssz.net 粤ICP备11031372号
[机器学习] q学习matlab代码示例--路基搜索
说明: % s表示状态,a表示动作,Q(s,a)表示对状态s下动作a得到的总体回报的一个估计,r为此动作的立即回报. % 1、对每个s,a初始化表项Q(s,a)为0 % 2、观察当前状态s % 3、一直重复做: % 选择一个动作a并执行它,该动作为使Q(s,a)最大的a。 接收到立即回报r。 观察新状态s'。 % 对Q(s',a')按照下式更新表项: Q(s,a)=r+gama * max Q (s',a')。 s=s'。<wiiliam_> 在 上传 | 大小:1024