从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

37 | 如何对数据进行分类和预测?

李智慧 2019-01-22
今天我们进入专栏的最后一个模块,补全大数据知识体系最后一块拼图,一起来学习大数据算法。大数据越来越多的和人工智能关联起来,所谓人工智能就是利用数学统计方法,统计数据中的规律,然后利用这些统计规律进行自动化数据处理,使计算机表现出某种智能的特性,而各种数学统计方法,就是大数据算法。关于专栏算法模块的设置,我会围绕数据分类、数据挖掘、推荐引擎、大数据算法的数学原理、神经网络算法几个方面,为你展开大数据算法的“全景图”。
分类是人们认知事物的重要手段,如果你能将某个事物分类得足够细,你实际上就已经认知了这个事物。如果你能将一个人从各个维度,比如专业能力、人际交往、道德品行、外貌特点各个方面都进行正确的分类,并且在每个维度的基础上还能再细分,比如大数据专业能力、Java 编程能力、算法能力也能正确分类,那么可以说你已经完全了解这个人了。
现实中,几乎没有人能够完全将另一个人分类。也就是说,几乎没有人能完全了解另一个人。但是在互联网时代,一个人在互联网里留下越来越多的信息,如果计算机利用大数据技术将所有这些信息都统一起来进行分析,理论上可以将一个人完全分类,也就是完全了解一个人。
分类也是大数据常见的应用场景之一,通过对历史数据规律的统计,将大量数据进行分类然后发现数据之间的关系,这样当有新的数据进来时,计算机就可以利用这个关系自动进行分类了。更进一步讲,如果这个分类结果在将来才会被证实,比如一场比赛的胜负、一次选举的结果,那么在旁观者看来,就是在利用大数据进行预测了。其实,现在火热的机器学习本质上说就是统计学习。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(14)

  • 老陈
    精辟! 跟随老师一路走来,学到很多,您这个专栏特点是理论知识阐述的非常清楚,不像技术书籍那样子晦涩,同时专栏也夹杂大量的工作方法和技巧,而这些方法和技巧不是技术书籍里能够看到的。
    2019-01-22
    1
    17
  • 杰之7
    跟着老师进入了最后一个模块的学习,也是这两年最火的名称,机器学习和AI。

    在这一节中,老师讲述了AI的定义,数据统计出来的规律,自动化的数据处理,使其表现出某种智能的特征。我的理解是人工智能依然是统计学的范畴,只不过将海量的统计规律用在计算机来自动处理学习,达到智能的效果。

    在数据统计方法中,老师介绍了分类算法KNN,关键点是通过提取向量,对特征向量进行距离或者余弦计算,然后通过KNN的处理步骤,得到分类的结果。

    另一种分类是条件分类贝叶斯,老师介绍了贝叶斯在邮件分类的处理。

    结合这一节的学习和生活中的现象,分类已经在各行各业中应用成熟。网购的购买标签分类之后推荐相似产品,头条系的定制推荐,现在的定制化制作,都在属于分类算法。
    2019-01-23
    3
  • Python
    谁能用python实现看看
    2019-01-22
    3
  • 任鹏斌
    老师讲的通俗易懂竟然一下就看懂了,不错,希望能学到更多
    2019-01-22
    1
  • 纯洁的憎恶
    机器分类KNN。
    首先要定义和提取特征向量,然后将其数字化。通过标记、计算样本的特征向量,给予机器指引。采用欧式距离、余弦相似度、TF-IDF、贝叶斯公式等方法,计算待分类对象与样本数据的特征向量差异,找到最近似的分类。
    2019-01-22
    1
  • 伊森
    很好
    2019-01-22
    1
  • 吴凌华
    提取关键字
    2019-11-30
  • 吴凌华
    去冗余
    2019-11-30
  • 糖糖是老坛酸菜女王
    非常同意一楼的观点
    2019-04-22
  • One day
    KNN的那个例子(3,3,3)和(6,6,6)的余弦相似度按照公式=(3*6+3*6+3*6)/((根号27)*(根号216))不是1吧,值应该是1/(根号2)?看到老师回复 分母是根号27*根号108 这个是为什么?
    2019-03-27
    1
  • leadluge
    KNN的那个例子(3,3,3)和(6,6,6)的余弦相似度按照公式=(3*6+3*6+3*6)/((根号27)*(根号216))不是1吧,值应该是1/(根号2),是老师笔误还是我理解错了^_^

    作者回复: 分母是:根号27 * 根号108

    2019-01-24
  • 天天向上
    顿开
    2019-01-22
  • 绿茶
    简短的介绍个举例子就让我明白了几种算法,节省不少时间
    2019-01-22
  • Hyun
    一个例子就足见李老师功底之深不可测
    2019-01-22
收起评论
14
返回
顶部