从 0 开始学大数据
李智慧
同程艺龙交通首席架构师,前 Intel 大数据架构师,《大型网站技术架构》作者
70145 人已学习
新⼈⾸单¥68
登录后,你可以任选4讲全文学习
课程目录
已完结/共 47 讲
智慧写给你的寄语 (1讲)
从 0 开始学大数据
15
15
1.0x
00:00/00:00
登录|注册

38 | 如何发掘数据之间的关系?

通过上一个模块“大数据分析与运营”的学习,我们知道数据之中蕴藏着关系,如果数据量足够大,这种关系越逼近真实世界的客观规律。在我们的工作和生活中你会发现,网页之间的链接关系蕴藏着网页的重要性排序关系,购物车的商品清单蕴藏着商品的关联关系,通过对这些关系的挖掘,可以帮助我们更清晰地了解客观世界的规律,并利用规律提高生产效率,进一步改造我们的世界。
挖掘数据的典型应用场景有搜索排序、关联分析以及聚类,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典型场景及其应用的算法。

搜索排序

我们说过 Hadoop 大数据技术最早源于 Google,而 Google 使用大数据技术最重要的应用场景就是网页排名。
当我们使用 Google 进行搜索的时候,你会发现,通常在搜索的前三个结果里就能找到自己想要的网页内容,而且很大概率第一个结果就是我们想要的网页。而排名越往后,搜索结果与我期望的偏差越大。并且在搜索结果页的上面,会提示总共找到多少个结果。
那么 Google 为什么能在十几万的网页中知道我最想看的网页是哪些,然后把这些页面排到最前面呢?
答案是 Google 使用了一种叫 PageRank 的算法,这种算法根据网页的链接关系给网页打分。如果一个网页 A,包含另一个网页 B 的超链接,那么就认为 A 网页给 B 网页投了一票,以下面四个网页 A、B、C、D 举例,带箭头的线条表示链接。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《从 0 开始学大数据》
新⼈⾸单¥68
立即购买
登录 后留言

全部留言(13)

  • 最新
  • 精选
  • 小气筒
    老师您好,我今年六月份刚本科毕业,入职一家大型国企的科技公司,最近新上了一个项目是关于物联网的,大概就是采集全国上千万只表的数据供业务场景使用,这些表大部分是五分钟采集一次数据,小部分是准实时采集,并对这些表进行开关阀操作,有准实时的和非准实时的,我是计算机专业毕业的,但是只是实习的时候在一家小型公司用ssm做过业务代码,目前也只会java的一些基本框架,基本的数据结构和算法,比如链表,数组,红黑树,二叉树,跳表等这些基础的数据结构,算法能力一般,没有刷过leecode题目,但能手写出基本的数据结构算法,数学基础基本停留在高中,最近也开始看概率论与数理统计,线性代数,机器学习实战也只看了一半,了解knn,朴素贝叶斯,逻辑回归这些算法的基本使用,但只会调参,不会建模,python基本语法还算了解,numpy这些库看着教程也能进行使用,hadoop家族里大部分的组件我都知道是做什么的,而且依赖于谁,只上手自己搭建过hdfs,yarn,hive,kafka,hbase这些基础的组件,但是都接触很浅,这些都是我在课下自己学习的,没有实践过。但是物联网采集平台经理说让我负责数据采集和数据清洗还有数据存储方面,因为会投标,可能会使用阿里腾讯他们这些成熟的云平台和组件,目前接手的就我自己,请问我能接下来这个任务嘛?今年六月份就要连接200w只表初步上线了,我现在对自己很没有把握。项目组人很少,这么大的项目,组里面就十个人,只有我一个刚毕业的开发,剩下都是搞业务的。我应该怎么办啊,从我来到现在都没有一个懂技术的人带领着,我心里很慌。我接下来应该怎么做啊?

    作者回复: 机会难得,好好把握,努力学习,虚心请教 年轻人,不要怂,just do IT

    11
    26
  • 明亮
    有一个疑问,聚类算法K-means要求提前知晓分组个数K, 用户怎么知道应该分成几个组呢。

    作者回复: 根据经验或者其他的算法专门计算K

    1
  • 杰之7
    通过这一节的阅读学习,了解了数据挖掘的一些关系算法。Pagerank,Apriori,K-means,这些算法在计算前不需要进行标注数据,也叫无监督算法。 在Pagerank算法中,通过链接的关系,计算每一个网站的排名权重,得到我们最想要的网站在最前。 Apriopi算法,我的理解也是在选择一个最小商品组合之后,不断迭代,筛选出所有满足最小支持度的频繁模式。 K—means算法,通过计算数据的平均值找出中心点,进一步计算中心点,直到每一个分组的中心点不在移动。 老师,我的一个疑问是,为什么关联推荐中是找到最小支持度的频繁模式呢?不应该是最大吗。

    作者回复: 就是至少有这么多出现,才叫有关联。

    1
  • 张贝贝
    但是迭代几次之后就全部为0了

    作者回复: 不论迭代多少次,4个页面的分值之和都是4

  • 张贝贝
    pagerank那个例子有问题,没有任何web指向c。如果用原始的pagerank公式,c的分数是0,导致b的分数也是0,然后d的分数也会是0,最后所有的分数都是0

    作者回复: 原文: 初始的时候,所有页面都是 1 分

  • Geek_534f73
    啤酒尿布的那个例子有一些问题。“在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。” 逻辑是超市中买尿布人的很可能是年轻父亲,而他们也很可能买啤酒。反过来有些问题,因为买啤酒的人太多了。另外,在电子商务环境中,年轻妈妈更多的是自己上网购买尿布,因此,在购物网站上这种推荐用处可能非常非常小。
    1
    9
  • 小老鼠
    算法python 有专门lib库吗?
    1
    2
  • Mr.z
    我在京东沃尔玛店铺搜索,有啤酒,奶粉,牛奶,笔记本,电脑包,杜蕾斯,但是每次下部的店长推荐很固定的就是 奶粉,尿不湿,食用油,这个是根据用户画像推荐,还是根据每次搜索的商品类别进行关联推荐,亦或者这个就是固定广告位呢?
    2
  • 阅过留痕 本节介绍的是挖掘数据关联关系的算法,分类算法把事物归类化,归完类之后,需要按照某个维度进行排序,因为排完序的便于查找和统计,不同类型的事物之间的关系可以用于预测,人工智能和人的思考过程是一样的,人也是一样的需要拿到一些数据,然后分个类然后排个名然后看看他们之间有啥关系,这需要数据越全面越好也需要分析的方法,这就是大数据+大数据的算法吧!
  • vigo
    拨开云雾见青天
收起评论
显示
设置
留言
13
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部