极客时间-轻松学习，高效学习-极客邦

林彦

2018-04-09

1. Epsilon贪婪算法的不足:
(1) Epsilon贪婪算法中的概率值(Epsilon值)定多少是合理的，能由候选集的条件判断比较合理的范围吗？这个值需要做试验和根据算法结果调整吗？
(2) 如果p值是固定的，总有一部分用户是肯定要看到不好的结果的，随着算法搜集到更多的反馈不会改善这个效果。
(3) 如果有大量的劣质资源，即使平均收益最大的臂可能都比整个候选集中最好的臂的收益差很多。Exploration的过程中会导致用户对整个系统丧失耐心，好的坏的都不愿意反馈。这样Exploit到好的候选的几率就更低，时间更长，需要更多的用户来做试验。
(4) 如何在实际环境中衡量Epsilon贪婪算法对整体的贡献，怎么知道多少次点击或多少用户之后的临界值来判断这个算法是对整体起足够多的正面作用的？

2. UCB算法的不足:
候选多时，很多候选都没有显示过，平均收益和其标准差会相同。这时候如何排序？如果纯粹随机，就可能需要较长时间得到候选集中更好的结果。UCB算法本质上是“确定性”（Deterministic）算法，随机探索的能力受到一定限制。

3. 汤普森采样的不足:
汤普森采样相对已经比较好了，我自己想不出更好的解决办法。当有相当数量的候选点击率和点击次数都很接近时，系统Explore到好的候选需要一些资源 (时间，用户等)。回到上面Epsilon贪婪算法的不足中的(3)。如果开始时有大量的劣质资源，没有人工干预发现好的候选比较耗时，整个系统可能还未来得及给用户推荐好的候选已经进入负循环。

Epsilon贪婪算法的不足的(3)和(4)适用于所有的Bandit算法。

展开



 16
🐱您的好友William...

2018-10-03

bandit是 reinforcement learning 的只有一个state和多个action的情况，我觉得thompson sampling的问题好像是它应该是有一个assumption，它假设了每个action背后会不会有反馈是一个Bernoulli Distribution，但是人的兴趣会不断地变化，所以assumption可能不hold，所以需要不断地online learning估计才行。在我来看，UCB最能直接反应问题的本质，我比较喜欢UCB。

作者回复: 你说得很对，同时我佩服你这中英文输入法切换自如的功力。

 1

 3
曾阿牛

2018-04-10

讲得很直白，赞。回到正题：
1）Bandit算法是试验型算法，基于大数定理，收敛应该不快
2）汤普森算法保留的参数量有点大，适用场景有点受限



 2
那年岁月

2018-04-10

Thompson采样，既然是冷启动用户，都初始化为1，下次这个用户可能就不是冷启动了，这个矩阵就没用了啊。只存储m个物品的矩阵就行吧

作者回复: 你不要这么机械理解冷启动，数据不足都算是冷启动，



 1
指尖旋律

2019-09-11

Bandit算法是反映了用户的一个长期兴趣吗，一般会考虑长期使用bandit算法建立的标签体系吗？如果使用了如何考虑时间因素呢




mi

2019-04-01

2mn个参数会不会太稀疏了啊？会不会导致a和b参考意义不大呢？




王千发

2019-02-26

请问对于新item的冷启动，应该怎么做呢？大致思路是怎样的？

作者回复: 内容相似是个常用办法。




叶晓锋

2018-05-02

汤普森采样




大猫星球

2018-04-13

目前我们冷启动采用标签与topic探索推荐

作者回复: 值得尝试。




EAsY

2018-04-11

冷启动用类似人群划分推荐（比如同机型年纪性别年龄等相似人群喜好）效果好还是bandit测试推荐好目前我们用的是前种




jt120

2018-04-10

是不是可以这样理解，前面的协同过滤和lr都是找相似，而bd是找选择，选大概率的选项




hqzhao

2018-04-10

bandit算法需要不断的试错，虽然原理和想法很好，但难以实际应用。顺便请教一个问题，bandit算法属于强化学习的范畴么？强化学习也是跟用户产生交互，并根据用户的反馈来更新参数




yya

2018-04-09

这个属于强化学习的方法吗



