© 1999-2048 dssz.net 粤ICP备11031372号
[机器学习] EnsembleDAgger A Bayesian Approach to Safe Imitation Learning.pdf
说明:模仿学习经常被用在机器人学,这种方法经常遭受数据的错配和组合的错误。 DAgger是一种迭代的算法,解释了聚合的训练数据集中来自专家的和初学者的策略的问题,但是没有考虑到安全性的影响。该方法对DAgger进行了概率性的延伸,尝试量化初学者策略的自信度来作为一种安全性的代理。通过EnsembleDAgger近似集成神经网路的GP算法。用方差作为自信度,捕捉初学者的疑问度来计算决策准则,从而来决定什么时候初学者的行动是安全的。通过这种方法,目的是最大限度共享初学者的行动,控制其失败的概率。我们通过比<weixin_43255962> 上传 | 大小:403kb