从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14263 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

38 | 如何发掘数据之间的关系?

李智慧 2019-01-24
通过上一个模块“大数据分析与运营”的学习,我们知道数据之中蕴藏着关系,如果数据量足够大,这种关系越逼近真实世界的客观规律。在我们的工作和生活中你会发现,网页之间的链接关系蕴藏着网页的重要性排序关系,购物车的商品清单蕴藏着商品的关联关系,通过对这些关系的挖掘,可以帮助我们更清晰地了解客观世界的规律,并利用规律提高生产效率,进一步改造我们的世界。
挖掘数据的典型应用场景有搜索排序、关联分析以及聚类,下面我们一个一个来看,希望通过今天的学习,你能够了解数据挖掘典型场景及其应用的算法。

搜索排序

我们说过 Hadoop 大数据技术最早源于 Google,而 Google 使用大数据技术最重要的应用场景就是网页排名。
当我们使用 Google 进行搜索的时候,你会发现,通常在搜索的前三个结果里就能找到自己想要的网页内容,而且很大概率第一个结果就是我们想要的网页。而排名越往后,搜索结果与我期望的偏差越大。并且在搜索结果页的上面,会提示总共找到多少个结果。
那么 Google 为什么能在十几万的网页中知道我最想看的网页是哪些,然后把这些页面排到最前面呢?
答案是 Google 使用了一种叫 PageRank 的算法,这种算法根据网页的链接关系给网页打分。如果一个网页 A,包含另一个网页 B 的超链接,那么就认为 A 网页给 B 网页投了一票,以下面四个网页 A、B、C、D 举例,带箭头的线条表示链接。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(12)

  • 小气筒
    老师您好,我今年六月份刚本科毕业,入职一家大型国企的科技公司,最近新上了一个项目是关于物联网的,大概就是采集全国上千万只表的数据供业务场景使用,这些表大部分是五分钟采集一次数据,小部分是准实时采集,并对这些表进行开关阀操作,有准实时的和非准实时的,我是计算机专业毕业的,但是只是实习的时候在一家小型公司用ssm做过业务代码,目前也只会java的一些基本框架,基本的数据结构和算法,比如链表,数组,红黑树,二叉树,跳表等这些基础的数据结构,算法能力一般,没有刷过leecode题目,但能手写出基本的数据结构算法,数学基础基本停留在高中,最近也开始看概率论与数理统计,线性代数,机器学习实战也只看了一半,了解knn,朴素贝叶斯,逻辑回归这些算法的基本使用,但只会调参,不会建模,python基本语法还算了解,numpy这些库看着教程也能进行使用,hadoop家族里大部分的组件我都知道是做什么的,而且依赖于谁,只上手自己搭建过hdfs,yarn,hive,kafka,hbase这些基础的组件,但是都接触很浅,这些都是我在课下自己学习的,没有实践过。但是物联网采集平台经理说让我负责数据采集和数据清洗还有数据存储方面,因为会投标,可能会使用阿里腾讯他们这些成熟的云平台和组件,目前接手的就我自己,请问我能接下来这个任务嘛?今年六月份就要连接200w只表初步上线了,我现在对自己很没有把握。项目组人很少,这么大的项目,组里面就十个人,只有我一个刚毕业的开发,剩下都是搞业务的。我应该怎么办啊,从我来到现在都没有一个懂技术的人带领着,我心里很慌。我接下来应该怎么做啊?

    作者回复: 机会难得,好好把握,努力学习,虚心请教
    年轻人,不要怂,just do IT

    2019-01-24
    7
  • Geek_534f73
    啤酒尿布的那个例子有一些问题。“在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。”
    逻辑是超市中买尿布人的很可能是年轻父亲,而他们也很可能买啤酒。反过来有些问题,因为买啤酒的人太多了。另外,在电子商务环境中,年轻妈妈更多的是自己上网购买尿布,因此,在购物网站上这种推荐用处可能非常非常小。
    2019-01-25
    3
  • 小老鼠
    算法python 有专门lib库吗?
    2019-02-02
    1
  • Mr.z
    我在京东沃尔玛店铺搜索,有啤酒,奶粉,牛奶,笔记本,电脑包,杜蕾斯,但是每次下部的店长推荐很固定的就是 奶粉,尿不湿,食用油,这个是根据用户画像推荐,还是根据每次搜索的商品类别进行关联推荐,亦或者这个就是固定广告位呢?
    2019-01-24
    1
  • 杰之7
    通过这一节的阅读学习,了解了数据挖掘的一些关系算法。Pagerank,Apriori,K-means,这些算法在计算前不需要进行标注数据,也叫无监督算法。

    在Pagerank算法中,通过链接的关系,计算每一个网站的排名权重,得到我们最想要的网站在最前。

    Apriopi算法,我的理解也是在选择一个最小商品组合之后,不断迭代,筛选出所有满足最小支持度的频繁模式。

    K—means算法,通过计算数据的平均值找出中心点,进一步计算中心点,直到每一个分组的中心点不在移动。

    老师,我的一个疑问是,为什么关联推荐中是找到最小支持度的频繁模式呢?不应该是最大吗。

    作者回复: 就是至少有这么多出现,才叫有关联。

    2019-01-24
    1
  • vigo
    拨开云雾见青天
    2019-04-01
  • Sam.张朝
    算法知识结合具体的例子讲一下,会更好。
    2019-01-31
  • 明亮
    有一个疑问,聚类算法K-means要求提前知晓分组个数K, 用户怎么知道应该分成几个组呢。

    作者回复: 根据经验或者其他的算法专门计算K

    2019-01-29
  • eldon
    老师我是一个学生 现在刚学完hdfs mapreduce yarn hive下一步学习路线应该怎么安排
    2019-01-25
  • 张贝贝
    但是迭代几次之后就全部为0了

    作者回复: 不论迭代多少次,4个页面的分值之和都是4

    2019-01-24
  • 张贝贝
    pagerank那个例子有问题,没有任何web指向c。如果用原始的pagerank公式,c的分数是0,导致b的分数也是0,然后d的分数也会是0,最后所有的分数都是0

    作者回复: 原文:
    初始的时候,所有页面都是 1 分

    2019-01-24
  • 梁中华
    期待后文展开讲更多的例子
    2019-01-24
收起评论
12
返回
顶部