卖桃者说
池建强
极客时间创始人、墨问西东创始人
30376 人已学习
免费领取
课程目录
已完结/共 523 讲
第一季 (135讲)
第二季 (134讲)
第三季 (124讲)
第四季 (90讲)
卖桃者说
15
15
1.0x
00:00/09:55
登录|注册

第64期 | 你对推荐算法的认知,也许都是错的

讲述:池建强大小:9.10M时长:09:55
你好,这里是卖桃者说,我们常常说这是个数据和算法主导的时代,不过呢,就像谈到程序员就会想到修电脑的一样,很多人,尤其是非 IT 领域从业者,对算法的理解游走在“算数”与“魔法”两个边缘,有很大的认知误区。
那算法有没有用呢,肯定有,并且就在我们的身边。比如你打开浏览器在网上闲逛的时候,你会发现某个网站的某个广告会出现一个你心仪品牌的羽毛球鞋图片,点进去之后你发现可以直接购买这款鞋子,出现这样的推荐是因为你前几天在这个网站上买了一只同品牌的羽毛球拍。为了学习人工智能,你买了一本《深度学习》,在付款的时候,你会发现页面下方会冒出了几本《机器学习实战》《Python 机器学习》的书,你忍不住又买了一本……
这就是你遇到的算法,确切的说,是推荐算法在起作用。
今天我就和你聊聊人们对推荐算法的一些误解,它没那么简单,也没那么神奇,就是一种技术而已。

误区一:推荐算法是根据用户点击率来推荐

这可能算是对算法最大的误解之一了。
我们经常说,推荐算法实现了个性化推荐效果,每个人看到的东西都是不一样的。这个说法忽略了一个重要的事实:大多数人喜欢的东西实际上高度类似,比如最火的流行歌曲、最新的明星八卦。
多年前今日头条出现,喊出了你感兴趣的才是头条。门户网站之所以觉得很平常没有跟进,也是陷入了算法等于点击的陷阱——按照热度排新闻,是各大门户网站早就有的功能,有什么新鲜的呢?
真正能挖掘长尾的个性化推荐,其实是反点击的,否则很难实现个性化的需求挖掘。系统需要跟进更多的用户信息维度和多种算法模型来发现和挖掘长尾需求。《长尾理论》曾经举过一个著名的例子。1988 年,乔·辛普森写了一本登山类的书籍《触及巅峰》,但销量一直很普通。10 年后,另一本讲述登山灾难的书《进入稀薄空气》引起了美国出版业的轰动。亚马逊发现有读者在评价《进入稀薄空气》时提到了《触及巅峰》,同时给出了高评价,于是将《触及巅峰》推荐给了《进入稀薄空气》的深度读者。很快,《触及巅峰》在经过十年的惨淡销量后,获得了巨大的成功。
实际上,亚马逊做的事情就是算法推荐现在做的事。推荐过程不仅要考虑用户的阅读轨迹,同时还要考虑用户的性别,年龄,甚至手机机型等信息,同时还要综合考虑新闻的时效性、以及地理位置等信息对内容进行相应推荐。而如果只看点击(销量),《触及巅峰》可能永远也不会获得推荐。

误区二:冰箱都买完了还推荐冰箱,点了不喜欢还推荐,算法一点都不聪明

假如你的微信只有一个好友联系人,会觉得朋友圈好玩吗?
朋友圈需要更多的好友,算法推荐也需要更多的数据。对新用户来说,一个系统或者平台可以推荐的内容是天文数字。以淘宝为例,2013 年的时候,淘宝在线商品数就超过了 8 亿,8 亿个候选,推哪一个呢?
这时候,点击或者浏览过的商品 / 文章,显然权重是最高的。对直接销售物品的电商来说更是如此,所以无论是国外的亚马逊还是国内的淘宝、京东,实践下来,当前浏览内容都是最重要的推荐因素。
而且,买过冰箱推荐冰箱,也未必是算法笨,这可能只是一个简单的策略问题——你买了冰箱,可能会和朋友聊到冰箱,那就会形成二次推荐;如果你看到了更喜欢的新款冰箱,很可能退了原来商家的冰箱,买这个新冰箱。并且这个策略是有可能造成最后销售数据的极大提升。
对相关新闻点击“不感兴趣”也类似。当你第一次对奥巴马演讲点击“不感兴趣”时,系统不知道你是对奥巴马不感兴趣还是对演讲不感兴趣,或者单纯不喜欢这次的演讲主题,所以反而会继续给你推荐相关的话题,从整体数据来看,这样的推荐策略有时候是更优的。
当然,个性化推荐为了防止过渡拟合出现,会根据读者的阅读纪录通过严谨的数学理论分析计算,推测出同类用户偏好,依兴趣标签的关联程度,推测出同类用户其他偏好,并进行“联想式”的推荐。比如当机器发现阅读“总统大选”相关信息的用户群体中,有很大部分人都在同时关注“股票”信息,那么机器就会把“股票”信息推荐给那部分关注“总统大选”但尚未关注“股票”信息的人,而不会单一推荐“总统大选”的信息。

误区三:推荐算法会导致“信息茧房”

有一种论调是,由于算法只给你推送你喜欢的内容,从而造成了信息茧房。
展开来说,这个论调包括两层,一是大家只关心自己的小世界,看不到更重要、更有意义的公共事件。二是算法越来越懂你,你喜欢特朗普,就只给你推荐特朗普好的新闻。最终的结果,造成了“信息茧房”和偏食。
这其实是不成立的。在实际情况中,算法很难实现“信息茧房”。公共事件之所以成为公共事件,是因为其公共性,这决定了其天然具有穿透性,所有算法都会对此类事件赋予极高的权重,否则这将违反算法准确性的初衷。
其次,关于态度倾向。因为每个人可能感兴趣的文章非常多,用专业话就是数据非常稀疏,所以对算法来说,正向情绪和负向情绪,都是对某一个话题的正相关,这种相关性本身大于情绪。这句话翻译过来就是,无论你讨厌特朗普还是喜欢特朗普,在数据意义上的表现,都是对特朗普这个话题高度相关的。对于算法来说,正常情况下,所有关于特朗普的重要内容,都会被优先推荐给你。
从哲学思辨的角度来看,“信息茧房”或许有其意义,但从实际操作中,不可能出现这样的极端情况,用户是会自我矫正的。

误区四:推荐算法发展的很快,未来可以洞察人性,无所不能

推荐算法的出现提高了信息分发效率,很好的解决了信息过载的问题。尽管个性化推荐需要用到一定的用户特征,但都是以公开特征和定向内容为主,很难全面的刻画出一个人,了解人性更是谈何容易。真正做到了解人性,就需要算法比你还了解你自己,以现在的科技水平,算法想要达到科幻小说里的洞悉人性是不可能的。
更重要的是,任何算法都会有反例。简单说,如果一个分类算法单纯按照头发长短区分男女,有些男生头发比较长就会出现分类错误。作为新技术,机器推荐还有不完美的地方,仍然需优化和改进,这也是众多科学家努力的方向。当然,从比例上看优秀的算法肯定能对绝大多数的案例进行正确分类,并有效的推荐给用户。

误区五:算法都是公开的,竞争壁垒不高

首先,数据是非常重要的壁垒。真正应用到工业的推荐系统需要大量数据进行建模计算的。并非简单的少量的数据即可,一般情况下需要上亿的数据和上亿的属性特征进行推荐,没有数据只有理论基础都是纸上谈兵。
因此,如果想要做出一套好的推荐系统模型,需要在大数据的基础上建立非常庞大和成熟的工程师团队。Google、微软聘用了大量的高端人才进行推荐算法优化,无非是针对一些特定的知识点做专门的 Feature Engineering,国内的今日头条也有近半数的员工都是技术工程师。
一些算法可能会在推荐算法的相关比赛中取得非常好的结果,但并不是说这就是一个最优的算法模型。很可能是机器把样本数据的所有特征都学习到了,获得了过多的局部特征和假特征,形成过拟合。当你用它识别新的数据样本的时就会发现,推荐准确率有可能非常低。
算法模型必须经过大量数据的学习和演化,没有任何一种机器模型可以被当做权威规则来使用。算法的学习和演化本身也是一种壁垒。
好,关于推荐算法,今天就和大家聊到这儿了,如果你想了解更多内容,在极客时间发现页搜索“推荐”即可找到推荐算法相关的课程和文章,非常有用。
你们的产品使用了推荐算法吗?有好的案例和故事,可以在留言区告诉我。卖桃者说,我们明天见。
(编辑:成敏) 
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《卖桃者说》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • 吃草🐴~
    前天的文章里,链接到的那个 Algocasts 感觉还是不错的,等我这个月发过工资去注册个会员~不知道报池大名,池大能不能获得 24 元的奖励金,😁 今天是八月一号,接下来的三个月里,我的主要任务是英语和算法。当然,是在工作以外的时间里~ 最后插播一个本人的好消息:(声音超大)从今天起,本宝宝就是有三年工作经验的程序猿啦~所以也需要有个更为明确的目标。 之前看过一篇文章,程序猿,三年是第一个里程碑,五年是第二个,十年是第三个。所以,加油咯~

    池建强回复: 学习算法推荐算法专栏和视频课,还有推荐算法专栏。

    2
    4
  • 最好的推荐算法是口碑推荐,哈哈哈哈哈
    1
  • 小斧
    算法就是自己的意识,算法把你的意识浮现出来。
  • 爱学习的大叔
    过拟合,信息茧房。
收起评论
大纲
固定大纲
误区一:推荐算法是根据用户点击率来推荐
误区二:冰箱都买完了还推荐冰箱,点了不喜欢还推荐,算法一点都不聪明
误区三:推荐算法会导致“信息茧房”
误区四:推荐算法发展的很快,未来可以洞察人性,无所不能
误区五:算法都是公开的,竞争壁垒不高
显示
设置
留言
4
收藏
74
沉浸
阅读
分享
手机端
快捷键
回顶部