38 | 如何发掘数据之间的关系？

李智慧



该思维导图由 AI 生成，仅供参考

通过上一个模块“大数据分析与运营”的学习，我们知道数据之中蕴藏着关系，如果数据量足够大，这种关系越逼近真实世界的客观规律。在我们的工作和生活中你会发现，网页之间的链接关系蕴藏着网页的重要性排序关系，购物车的商品清单蕴藏着商品的关联关系，通过对这些关系的挖掘，可以帮助我们更清晰地了解客观世界的规律，并利用规律提高生产效率，进一步改造我们的世界。
挖掘数据的典型应用场景有搜索排序、关联分析以及聚类，下面我们一个一个来看，希望通过今天的学习，你能够了解数据挖掘典型场景及其应用的算法。
搜索排序我们说过 Hadoop 大数据技术最早源于 Google，而 Google 使用大数据技术最重要的应用场景就是网页排名。
当我们使用 Google 进行搜索的时候，你会发现，通常在搜索的前三个结果里就能找到自己想要的网页内容，而且很大概率第一个结果就是我们想要的网页。而排名越往后，搜索结果与我期望的偏差越大。并且在搜索结果页的上面，会提示总共找到多少个结果。
那么 Google 为什么能在十几万的网页中知道我最想看的网页是哪些，然后把这些页面排到最前面呢？
答案是 Google 使用了一种叫 PageRank 的算法，这种算法根据网页的链接关系给网页打分。如果一个网页 A，包含另一个网页 B 的超链接，那么就认为 A 网页给 B 网页投了一票，以下面四个网页 A、B、C、D 举例，带箭头的线条表示链接。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了数据挖掘中的关系发掘技术，包括搜索排序、关联分析和聚类三个典型应用场景。作者以Google的PageRank算法为例，详细介绍了如何根据网页的链接关系给网页打分，从而实现搜索结果的排序。在关联分析中，通过大数据关联分析可以发现看似不相关商品的关联关系，并利用这些关系进行商品营销。此外，作者还介绍了Apriori算法用于寻找满足最小支持度的频繁模式。另外，文章还讨论了K-means算法在数据聚类中的应用。这些算法不需要人工事先对数据进行标注，一般被称作无监督算法。数据挖掘技术在大数据时代变得更加方便、成本更低，各种大数据产品都有对应的算法库可以方便地进行大数据挖掘。文章通过具体案例和算法原理，生动地展示了数据挖掘技术在实际应用中的重要性和价值。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《从 0 开始学大数据》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(13)

最新
精选

小气筒
老师您好，我今年六月份刚本科毕业，入职一家大型国企的科技公司，最近新上了一个项目是关于物联网的，大概就是采集全国上千万只表的数据供业务场景使用，这些表大部分是五分钟采集一次数据，小部分是准实时采集，并对这些表进行开关阀操作，有准实时的和非准实时的，我是计算机专业毕业的，但是只是实习的时候在一家小型公司用ssm做过业务代码，目前也只会java的一些基本框架，基本的数据结构和算法，比如链表，数组，红黑树，二叉树，跳表等这些基础的数据结构，算法能力一般，没有刷过leecode题目，但能手写出基本的数据结构算法，数学基础基本停留在高中，最近也开始看概率论与数理统计，线性代数，机器学习实战也只看了一半，了解knn,朴素贝叶斯，逻辑回归这些算法的基本使用，但只会调参，不会建模，python基本语法还算了解，numpy这些库看着教程也能进行使用，hadoop家族里大部分的组件我都知道是做什么的，而且依赖于谁，只上手自己搭建过hdfs,yarn,hive,kafka,hbase这些基础的组件，但是都接触很浅，这些都是我在课下自己学习的，没有实践过。但是物联网采集平台经理说让我负责数据采集和数据清洗还有数据存储方面，因为会投标，可能会使用阿里腾讯他们这些成熟的云平台和组件，目前接手的就我自己，请问我能接下来这个任务嘛？今年六月份就要连接200w只表初步上线了，我现在对自己很没有把握。项目组人很少，这么大的项目，组里面就十个人，只有我一个刚毕业的开发，剩下都是搞业务的。我应该怎么办啊，从我来到现在都没有一个懂技术的人带领着，我心里很慌。我接下来应该怎么做啊？
作者回复: 机会难得，好好把握，努力学习，虚心请教年轻人，不要怂，just do IT
2019-01-24
11
26
明亮
有一个疑问，聚类算法K-means要求提前知晓分组个数K, 用户怎么知道应该分成几个组呢。
作者回复: 根据经验或者其他的算法专门计算K
2019-01-29

1
杰之7
通过这一节的阅读学习，了解了数据挖掘的一些关系算法。Pagerank,Apriori,K-means，这些算法在计算前不需要进行标注数据，也叫无监督算法。在Pagerank算法中，通过链接的关系，计算每一个网站的排名权重，得到我们最想要的网站在最前。 Apriopi算法，我的理解也是在选择一个最小商品组合之后，不断迭代，筛选出所有满足最小支持度的频繁模式。 K—means算法，通过计算数据的平均值找出中心点，进一步计算中心点，直到每一个分组的中心点不在移动。老师，我的一个疑问是，为什么关联推荐中是找到最小支持度的频繁模式呢？不应该是最大吗。
作者回复: 就是至少有这么多出现，才叫有关联。
2019-01-24

1
张贝贝
但是迭代几次之后就全部为0了
作者回复: 不论迭代多少次，4个页面的分值之和都是4
2019-01-24


张贝贝
pagerank那个例子有问题，没有任何web指向c。如果用原始的pagerank公式，c的分数是0，导致b的分数也是0，然后d的分数也会是0，最后所有的分数都是0
作者回复: 原文：初始的时候，所有页面都是 1 分
2019-01-24


Geek_534f73
啤酒尿布的那个例子有一些问题。“在美国有婴儿的家庭中，一般是母亲在家中照看婴儿，年轻的父亲前去超市购买尿布。父亲在购买尿布的同时，往往会顺便为自己购买啤酒，这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。” 逻辑是超市中买尿布人的很可能是年轻父亲，而他们也很可能买啤酒。反过来有些问题，因为买啤酒的人太多了。另外，在电子商务环境中，年轻妈妈更多的是自己上网购买尿布，因此，在购物网站上这种推荐用处可能非常非常小。
2019-01-25
1
9
小老鼠
算法python 有专门lib库吗？
2019-02-02
1
2
Mr.z
我在京东沃尔玛店铺搜索，有啤酒，奶粉，牛奶，笔记本，电脑包，杜蕾斯，但是每次下部的店长推荐很固定的就是奶粉，尿不湿，食用油，这个是根据用户画像推荐，还是根据每次搜索的商品类别进行关联推荐，亦或者这个就是固定广告位呢?
2019-01-24

2
钱
阅过留痕本节介绍的是挖掘数据关联关系的算法，分类算法把事物归类化，归完类之后，需要按照某个维度进行排序，因为排完序的便于查找和统计，不同类型的事物之间的关系可以用于预测，人工智能和人的思考过程是一样的，人也是一样的需要拿到一些数据，然后分个类然后排个名然后看看他们之间有啥关系，这需要数据越全面越好也需要分析的方法，这就是大数据+大数据的算法吧！
2020-02-11


vigo
拨开云雾见青天
2019-04-01



收起评论