bandit是 reinforcement learning 的只有一个state和多个action的情况,我觉得thompson sampling的问题好像是它应该是有一个assumption,它假设了每个action背后会不会有反馈是一个Bernoulli Distribution,但是人的兴趣会不断地变化,所以assumption可能不hold,所以需要不断地online learning估计才行。在我来看,UCB最能直接反应问题的本质,我比较喜欢UCB。
作者回复: 你说得很对,同时我佩服你这中英文输入法切换自如的功力。