数据分析思维课
郭炜
前易观 CTO
38045 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 40 讲
数据分析思维课
15
15
1.0x
00:00/00:00
登录|注册

16 | 关联规则:为什么啤酒和尿布一起卖?

个性化衣服搭配推荐
医学领域的关联挖掘
万达广场会员客户停留分析
连坐算法
互联网推荐系统
股票分析
金融行业
关联规则数据挖掘的应用
妈妈嘱咐买尿布,丈夫顺手买啤酒
课后思考
人生启发
利用关联规则挖掘的应用
物联网和人工智能的发展
FP-growth算法
Apriori算法
提升度(lift)
置信度(confidence)
支持度(support)
关联规则挖掘应用场景
超市商品摆放
Teradata公司案例
小结
未来场景的展望
关联规则算法初探
关联规则定义和使用场景
为什么啤酒和尿布一起卖?
关联规则算法

该思维导图由 AI 生成,仅供参考

数据给你一双看透本质的眼睛,这里是《数据分析思维课》,我是郭炜。
世间万物都有一定的联系,你应该听说过这样一个说法:一只南美洲热带雨林的蝴蝶扇动了几下翅膀,两周后美国得克萨斯州就形成了一个龙卷风。
我们不停地搜索一些公司情况,最终很可能会影响这个公司的股价的波动;你打一个喷嚏,第二天发现中了一个彩票;你今天右眼皮起床时跳了跳,结果今天打麻将一直输。
每天都会发生各种各样的事情,我们怎么能发现在这么多的事物之间到底谁和谁有关联性,从而能去描述一些事物出现的规律和模式呢?这就是今天要给你讲的关联规则算法。

关联规则定义和使用场景

关联规则挖掘经常会应用在各种各样的数据场景里,用于检测数据和数据之间的潜在关系。最早也是最著名的案例,就是我当年所在的 Teradata 公司提出来的一个案例,也就是啤酒和尿片的故事。
这个故事是这样的,当你去美国沃尔玛超市,你会看到一个非常有趣的现象:货架上啤酒和尿布经常放在一起售卖。这两个看上去是完全不相关的东西,为什么会放到一起卖呢?
Teradata 公司针对人们每次去超市一次交易清单里的物品进行关联挖掘,发现啤酒和尿布经常会在一次购买清单当中购买。这件事情上沃尔玛的管理者也非常不解,后来经过调研发现,妈妈们经常会嘱咐她们的老公下班后去给孩子买一点尿布回来(你知道孩子用尿布的速度是非常快的)。而丈夫买完尿布的时候,大多会顺手给自己买一瓶喜欢的啤酒。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

关联规则算法在数据分析中的应用是本文的重点。文章以啤酒和尿布的销售组合为例,说明了关联规则挖掘在商业中的应用。通过分析超市交易数据,发现了妈妈嘱咐丈夫买尿布时,丈夫会顺手购买啤酒的关联规律。这个案例展示了数据挖掘的能力,能够发现人们意想不到的关联关系。除了超市销售,关联规则算法还被广泛应用在金融行业、股票分析和互联网推荐等领域。例如,银行可以通过关联规则预测客户需求,股票交易公司可以根据社交媒体新闻调整股票交易,亚马逊书城可以通过关联规则推荐相关图书。文章还介绍了关联规则算法的基本概念,如支持度、置信度和提升度,并介绍了Apriori算法的基本逻辑。此外,文章还展望了关联规则算法在物联网和人工智能领域的应用,如在商场会员分析和医学领域的针灸规律挖掘。总的来说,本文通过实际案例和技术概念,展示了关联规则算法在不同领域的实际应用和未来发展前景。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析思维课》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(16)

  • 最新
  • 精选
  • young trece
    老师游泳健身了解一下 是不是就是关联规则

    作者回复: 哈哈,也算吧,其实是因为都在一个地方,应该就算一种,哈哈哈

    2021-09-19
    2
    1
  • 罗伊斯
    关联规则和协同过滤推荐的最终目的是一致的吧?

    作者回复: 方法不同,推荐只是算法的一种场景,对于推荐来说场景都是类似的

    2021-12-25
  • 艺霖子
    人脉断舍离,我现在的处境最真实的写照,突然豁然开朗了…学习如此,生活亦如此,感谢老师。

    作者回复: 能有所感悟,就不虚此课

    2021-09-10
  • 进化菌
    有趣的关联规则。 平时火急火燎的总觉得什么都想学,然而却苦于一天只有24小时...人拥有的时间真的不多,我们大概率只是做些跟自己关联比较强的东西,这一讲说的真好~
    2021-09-03
    14
  • Walter
    一般使用以下三个指标来衡量关联性: 1.支持度(Support) 支持度表示项集{X,Y}在总项集里出现的概率。表示A和B同时在总数I 中发生的概率,公式为: Support(X→Y) = P(X,Y) / P(I) = P(X∩Y) / P(I) = num(X∩Y) / num(I) 其中,I表示总事务集。num()表示求事务集里特定项集出现的次数。 2.置信度 (Confidence) 置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。表示在发生X的项集中,同时会发生Y的可能性,即X和Y同时发生的个数占仅仅X发生个数的比例,公式为: Confidence(X→Y) = P(Y|X) = P(X,Y) / P(X) = P(X∩Y) / P(X) 3.提升度(Lift) 提升度表示含有X的条件下,同时含有Y的概率,与只看Y发生的概率之比。提升度反映了关联规则中的X与Y的相关性,提升度>1且越高表明正相关性越高,提升度<1且越低表明负相关性越高,提升度=1表明没有相关性,即相互独立。 Lift(X→Y) = P(Y|X) / P(Y)
    2021-11-17
    12
  • 80分
    我认为有支持度和置信度还不够,评价效果还得看提升度。就比如在第二节“关联规则算法初探”的表格里的例子: - 总共6次购买,4次买了尿布,尿布的支持度约为0.67; - 买了5次啤酒,其中3次买了尿布,(啤酒→尿布)的置信度为0.6; - 那么,提升度(啤酒→尿布)=置信度(啤酒→尿布)/支持度(尿布)<1。说明啤酒对尿布没有提升作用,反而有副作用。 但我不明白为什么文章里的结论是“啤酒→尿布是一个有关联性的规则”。是我计算方法的问题吗?有没有人计算过这个?请老师和同学们指教。
    2021-09-21
    8
    5
  • 那时刻
    推荐系统可以认为是关联规则的体现。 “连坐”算法把整体无关的事务、人脉做到断舍离,留下精力把和你最强的关联关系的事情做好。我们需要把80%精力花在20%重要的事情上
    2021-09-03
    5
  • Jason-张格
    真好,人生也是这个道理。要找到自己强关联的事情并做好,而不是什么关联的都要尝试下,学会舍弃一些无关紧要的事情和目标,挖掘真正属于自己的事情。人生足矣
    2021-09-20
    3
  • Vvin
    老师你好, 提升度 (A→B)= 置信度 (A→B)/ 支持度 (B) 这里的支持度是不是A+B发生的次数,不是B单独呢?
    2022-03-02
    2
    2
  • chris
    提升度 >1,证明 A 和 B 的相关性很高,A 会带动 B 的售卖; 提升度 =1,无相关性,相互没作用; 提升度 <1,证明 A 对 B 有负相关,也就是这两个商品有排斥作用,买了 A 就不会买 B。 这个提升度感觉好像经济学里的替代品和互补品
    2022-02-03
    1
收起评论
显示
设置
留言
16
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部