16 | 关联规则:为什么啤酒和尿布一起卖?
郭炜
该思维导图由 AI 生成,仅供参考
数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
世间万物都有一定的联系,你应该听说过这样一个说法:一只南美洲热带雨林的蝴蝶扇动了几下翅膀,两周后美国得克萨斯州就形成了一个龙卷风。
我们不停地搜索一些公司情况,最终很可能会影响这个公司的股价的波动;你打一个喷嚏,第二天发现中了一个彩票;你今天右眼皮起床时跳了跳,结果今天打麻将一直输。
每天都会发生各种各样的事情,我们怎么能发现在这么多的事物之间到底谁和谁有关联性,从而能去描述一些事物出现的规律和模式呢?这就是今天要给你讲的关联规则算法。
关联规则定义和使用场景
关联规则挖掘经常会应用在各种各样的数据场景里,用于检测数据和数据之间的潜在关系。最早也是最著名的案例,就是我当年所在的 Teradata 公司提出来的一个案例,也就是啤酒和尿片的故事。
这个故事是这样的,当你去美国沃尔玛超市,你会看到一个非常有趣的现象:货架上啤酒和尿布经常放在一起售卖。这两个看上去是完全不相关的东西,为什么会放到一起卖呢?
Teradata 公司针对人们每次去超市一次交易清单里的物品进行关联挖掘,发现啤酒和尿布经常会在一次购买清单当中购买。这件事情上沃尔玛的管理者也非常不解,后来经过调研发现,妈妈们经常会嘱咐她们的老公下班后去给孩子买一点尿布回来(你知道孩子用尿布的速度是非常快的)。而丈夫买完尿布的时候,大多会顺手给自己买一瓶喜欢的啤酒。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
关联规则算法在数据分析中的应用是本文的重点。文章以啤酒和尿布的销售组合为例,说明了关联规则挖掘在商业中的应用。通过分析超市交易数据,发现了妈妈嘱咐丈夫买尿布时,丈夫会顺手购买啤酒的关联规律。这个案例展示了数据挖掘的能力,能够发现人们意想不到的关联关系。除了超市销售,关联规则算法还被广泛应用在金融行业、股票分析和互联网推荐等领域。例如,银行可以通过关联规则预测客户需求,股票交易公司可以根据社交媒体新闻调整股票交易,亚马逊书城可以通过关联规则推荐相关图书。文章还介绍了关联规则算法的基本概念,如支持度、置信度和提升度,并介绍了Apriori算法的基本逻辑。此外,文章还展望了关联规则算法在物联网和人工智能领域的应用,如在商场会员分析和医学领域的针灸规律挖掘。总的来说,本文通过实际案例和技术概念,展示了关联规则算法在不同领域的实际应用和未来发展前景。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》,新⼈⾸单¥59
《数据分析思维课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
全部留言(16)
- 最新
- 精选
- young trece老师游泳健身了解一下 是不是就是关联规则
作者回复: 哈哈,也算吧,其实是因为都在一个地方,应该就算一种,哈哈哈
2021-09-1921 - 罗伊斯关联规则和协同过滤推荐的最终目的是一致的吧?
作者回复: 方法不同,推荐只是算法的一种场景,对于推荐来说场景都是类似的
2021-12-25 - 艺霖子人脉断舍离,我现在的处境最真实的写照,突然豁然开朗了…学习如此,生活亦如此,感谢老师。
作者回复: 能有所感悟,就不虚此课
2021-09-10 - 进化菌有趣的关联规则。 平时火急火燎的总觉得什么都想学,然而却苦于一天只有24小时...人拥有的时间真的不多,我们大概率只是做些跟自己关联比较强的东西,这一讲说的真好~2021-09-0314
- Walter一般使用以下三个指标来衡量关联性: 1.支持度(Support) 支持度表示项集{X,Y}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率,公式为: Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I) 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 2.置信度 (Confidence) 置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。表示在发生X的项集中,同时会发生Y的可能性,即X和Y同时发生的个数占仅仅X发生个数的比例,公式为: Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(X∩Y) / P(X) 3.提升度(Lift) 提升度表示含有X的条件下,同时含有Y的概率,与只看Y发生的概率之比。提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性,即相互独立。 Lift(X→Y) = P(Y|X) / P(Y)2021-11-1712
- 80分我认为有支持度和置信度还不够,评价效果还得看提升度。就比如在第二节“关联规则算法初探”的表格里的例子: - 总共6次购买,4次买了尿布,尿布的支持度约为0.67; - 买了5次啤酒,其中3次买了尿布,(啤酒→尿布)的置信度为0.6; - 那么,提升度(啤酒→尿布)=置信度(啤酒→尿布)/支持度(尿布)<1。说明啤酒对尿布没有提升作用,反而有副作用。 但我不明白为什么文章里的结论是“啤酒→尿布是一个有关联性的规则”。是我计算方法的问题吗?有没有人计算过这个?请老师和同学们指教。2021-09-2185
- 那时刻推荐系统可以认为是关联规则的体现。 “连坐”算法把整体无关的事务、人脉做到断舍离,留下精力把和你最强的关联关系的事情做好。我们需要把80%精力花在20%重要的事情上2021-09-035
- Jason-张格真好,人生也是这个道理。要找到自己强关联的事情并做好,而不是什么关联的都要尝试下,学会舍弃一些无关紧要的事情和目标,挖掘真正属于自己的事情。人生足矣2021-09-203
- Vvin老师你好, 提升度 (A→B)= 置信度 (A→B)/ 支持度 (B) 这里的支持度是不是A+B发生的次数,不是B单独呢?2022-03-0222
- chris提升度 >1,证明 A 和 B 的相关性很高,A 会带动 B 的售卖; 提升度 =1,无相关性,相互没作用; 提升度 <1,证明 A 对 B 有负相关,也就是这两个商品有排斥作用,买了 A 就不会买 B。 这个提升度感觉好像经济学里的替代品和互补品2022-02-031
收起评论