AI 技术内参
洪亮劼
Etsy 数据科学主管,前雅虎研究院资深科学家
32838 人已学习
新⼈⾸单¥98
登录后,你可以任选6讲全文学习
课程目录
已完结/共 166 讲
开篇词 (1讲)
人工智能国际顶级会议 (31讲)
搜索核心技术 (28讲)
推荐系统核心技术 (22讲)
数据科学家与数据科学团队养成 (25讲)
AI 技术内参
15
15
1.0x
00:00/00:00
登录|注册

068 | 推荐的Exploit和Explore算法之二:UCB算法

这周,我们来讨论 EE 策略,周一介绍了 EE 的综合情况。今天来看一种最基本的思路,叫作 UCB(Upper Confidence Bound)算法

EG 算法

在介绍 UCB 算法之前,我们先来看一种更加简单的 EE 算法,叫 EG(Epsilon-Greedy)算法
我们先来回顾一下 EE 的主要目的。EE 的核心思想是说,我们对当前物品的估计往往是有限的、不准确的,需要不断尝试来增强对整个环境的了解,进而能够更加准确地对每个物品进行估计。
可以说,EG 算法是最简单也是最基本的 EE 算法。EG 算法的基本思路是这样的:既然我们当前对所有物品的估计是不完整的,那就可以随机地显示所有物品来获取数据。假设我们现在有一千个物品,我们对每个物品都需要估计一个数值,比如点击率。很显然,这个点击率的估计受以下两个因素的影响:已经显示了什么样的物品和显示的次数。那么,要想进一步提高这个估计值的准确度,EG 算法认为我们必须对所有物品进行“探索”(Explore)。
具体来说,EG 算法的流程是这样的:对于所有的物品,在概率 P 的情况下,按照当前的估计值来显示物品。回到刚才点击率的例子,那就是在概率 P 的情况下,谁的点击率高就显示谁。然后在概率 1-P 的情况下,随机地在所有物品中选择显示对象。如果我们从所有用户的角度来看,也就是说,P% 的用户看到的是根据点击率排序的物品,而 (1-P)% 的用户看到的是随机的物品。
EG 的想法是,虽然在最开始的时候,这种随机性可能会带来用户体验的下降,也就是那 (1-P)% 的用户会持续看到随机的内容,但是在牺牲这部分用户体验的情况下,随着时间的推移,慢慢地从整体上来看,对所有物品的估计会更加准确,P% 的那部分用户的体验会增加。这也就是一种牺牲小部分用户体验来换取大部分用户体验的思路。

UCB 算法的核心思路

我们刚才讲了 EG 算法的基本思路。很显然,EG 有一个很大的问题,那就是有一个固定百分比的用户持续看到的都是随机的内容,这就太过于局限
那么,我们能不能根据对物品的估计,来动态地调整显示物品的可能性呢?
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《AI 技术内参》
新⼈⾸单¥98
立即购买
登录 后留言

全部留言(2)

  • 最新
  • 精选
  • 不玩
    请问标准差是怎么计算的?我理解经验的点击率就是总的click除以总的show
    1
  • 林彦
    如果有一大堆物品的 UCB 打分值是一样的,是不是可以考虑引进一个随机数来打破平衡? 搜索资料过程中提到LinUCB可以根据物品的特征,涉及的用户特征,所在页面的信息得出一些特征值,用这些特征值的组合计算来预估物品的期望值和UCB值作为打分,再根据实际结果更新特征值。我的理解分数一样时也是先随机选择一个。 Thompson sampling会引入概率分布,每次生成的值是根据参数已计算好的概率分布来生成的,是随机的。
收起评论
显示
设置
留言
2
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部