在强化学习中,我们使用奖惩机制来训练agents。Agent做出正确的行为会得到奖励,做出错误的行为就会受到惩罚。这样的话,agent就会试着将自己的错误行为最少化,将自己的正确行为最多化。本文我们将会聚焦于强化学习在现实生活中的实际应用。无人驾驶中的应用很多论文都提到了深度强化学习在自动驾驶领域中的应用。在无人驾驶中,需要考虑的问题是非常多的,如:不同地方的限速不同限速,是否是可行驶区域,如何躲避障碍等问题。有些自动驾驶的任务可以与强化学习相结合,比如轨迹优化,运动规划,动态路径,最优控制,以