机器学习-强化学习-汤普森采样-源码机器学习-强化学习-汤普森采样强化学习：汤普森采样：我们需

文件名称: 机器学习-强化学习-汤普森采样-源码

所属分类: 其它

开发工具:

文件大小: 27kb

下载次数: 0

上传时间: 2021-03-01

提供者: weixin_********

下载 (27kb)

不能下载？报告错误

详细说明：机器学习-强化学习-汤普森采样强化学习：汤普森采样：我们需要在有效的勘探与开发之间找到适当的平衡。与UCB算法不同，汤普森采样算法是一种概率算法。该算法具有代表我们对世界的感知以及我们认为这些机器中的每台机器的实际预期收益可能位于的分布。与UCB相比，Thomas采样的优点之一是它可以适应延迟的反馈。我将使用与UCB算法相同的数据集。与UCB算法相比，汤普森采样算法产生了更好的结果（能够在尽可能少的回合中确定最佳广告）。该算法的工作原理如下：在第n轮中，我们为每个广告i考虑两个数字： N1（n）：-直到第n轮我获得奖励1的广告的次数， N0（n）：-广告获得奖励0到第n轮的次数。对于每个广告i，我们从以下分布中随机抽取：0i（n）= B（N1（n）+1，N0（n）+1）我们选择最高0i（n）的广告

(系统自动生成,下载前可以参看下载内容)