强化学习旨在从与环境的互动中学习策略,以最大化长期回报。 在实践中,我们通常期望策略可以是从状态特征到候选动作的非线性映射,因此具有适应复杂决策情况的能力。 功能表示(通过功能表示将功能表示为基本功能的组合)是学习非线性功能的强大工具,并且已在策略学习中使用(例如,非参数策略梯度(NPPG)方法)。 尽管功能表示具有许多独特的优点,但是功能表示策略包含大量基础功能仍然存在实际缺陷,因此在学习许多构成基础功能时,策略学习算法将花费大量时间。 由于要不断评估复杂的策略,因此该缺陷将严重妨碍功能表示在