从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

预习 02 | 大数据应用发展史:从搜索引擎到人工智能

李智慧 2018-11-01
上一期我们聊了大数据技术的发展历程,事实上,我们对大数据技术的使用同样也经历了一个发展过程。从最开始的 Google 在搜索引擎中开始使用大数据技术,到现在无处不在的各种人工智能应用,伴随着大数据技术的发展,大数据应用也从曲高和寡走到了今天的遍地开花。
Google 从最开始发表大数据划时代论文的时候,也许自己也没有想到,自己开启了一个大数据的新时代。今天大数据和人工智能的种种成就,离不开全球数百万大数据从业者的努力,这其中也包括你和我。历史也许由天才开启,但终究还是由人民创造,作为大数据时代的参与者,我们正在创造历史。

大数据应用的搜索引擎时代

作为全球最大的搜索引擎公司,Google 也是我们公认的大数据鼻祖,它存储着全世界几乎所有可访问的网页,数目可能超过万亿规模,全部存储起来大约需要数万块磁盘。为了将这些文件存储起来,Google 开发了 GFS(Google 文件系统),将数千台服务器上的数万块磁盘统一管理起来,然后当作一个文件系统,统一存储所有这些网页文件
你可能会觉得,如果只是简单地将所有网页存储起来,好像也没什么太了不起的。没错,但是 Google 得到这些网页文件是要构建搜索引擎,需要对所有文件中的单词进行词频统计,然后根据 PageRank 算法计算网页排名。这中间,Google 需要对这数万块磁盘上的文件进行计算处理,这听上去就很了不起了吧。当然,也正是基于这些需求,Google 又开发了 MapReduce 大数据计算框架。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(78)

  • 小千 置顶
    啤酒与尿布这个经典案例广为流传,但是我专门咨询了沃尔玛超市的人员,他表示这个案例是虚构的,是当年ibm为了卖天价解决方案而编出来的。
    实际上,我专门去考察了不下100个超市,没有一家把啤酒喝尿布放在一起。数据挖掘如何在传统企业落地,是非常艰难复杂的过程。

    作者回复: 刚刚在京东沃尔玛旗舰店搜啤酒,哈尔滨啤酒详情页下方推荐六件商品,两件尿不湿。

    传统零售商没有很好的货架策略摆放关联商品,这可能也是传统零售商没落的一个原因。

    2018-11-02
    2
    35
  • Shy🍓
    统计大家p图的参数进行智能美颜

    作者回复: 赞

    2018-11-01
    47
  • o°cboy
    搜索引擎》数据仓库》数据挖掘》机器学习
    总结的很好👍
    2018-11-01
    32
  • 虎虎❤️
    人工智能超过人类智能不要太简单。。。人类受人工智能/算法支配的例子也比比皆是。比如曾经有新闻表示,有人跟随地图智能导航,把车开进海里的。随着智能的发展,你我可能会因为习惯或者依赖智能的服务,而丧失了某些能力。比如自动驾驶出现可能会导致没人会开车了。这等于把命交给了智能,毕竟算法会替你决定撞别人(一群幼童)还是牺牲自己。对于人工智能是否会统治人类,以现在对人工智能的理解,应该还没有这个可能。但是,在商业驱动而非理性驱动的模式下,给人类能带来怎样的影响并不明晰。如果数据和算法最终只掌握在某些少数精英的手中,仅服从于他们的意志。那么我们可能会被少数人,以人工智能进行统治和支配。
    哈哈,这些讨论不是课程的重点,但是也挺有意思的。

    作者回复: 有道理,非机械方式运作的AI,不能机械地下结论。

    2018-11-01
    1
    28
  • 想飞就飞
    未来的软件开发不再是需求-分析-设计-实现的确定性过程,而是定义问题和目标,收集数据,提供数据,再由神经网络不断探索最优解的非确定性过程。

    作者回复: 赞

    2018-11-15
    16
  • 妖精的盒子
    在老家一直和合伙人运营着一款类似于淘宝客的机器人,可以聊天可以看电影可以购物智能推荐,所以,去培训班学习了大数据,希望在此基础上不断积累,然后学习数据挖掘还有机器学习。谁说女孩子不需要成就感和事业的。。。。
    2018-12-03
    15
  • 拿笔小星
    第一知道AI,是大学里接触了一款叫“DOTA”的游戏,里面有张人机对战图,地图名字会在结尾被标注AI。当时还不知道AI的意思,后来才知道人工智能啊。现在AI运用在游戏里又火起来了。他也是统计了世界各地顶级高手的数据,完成英雄操作和对战!
    2018-11-04
    12
  • 之前用过一款应用 微软识花,由微软亚洲研究院和中科院植物研究所合作开发,据说研究了植物所提供的几百万张花的照片,对机器识别模型进行训练,才达到拍张照就可以识别花,了解花的详细介绍。

    作者回复: 👍🏻

    2018-11-02
    6
  • Beckwin
    听一个清华教授的演讲其中对人工智能的寄语,挺好的,她说“人工智能对人类不是replace,而是be a partner”。
    大数据,人工智能确实给我们现代生活带来了很多遍历,但很多地方也侵入生活太深,头条的智能推荐阅读,淘宝小红书的推荐购物,有些时候反而有点适得其反让我们陷入到人工智能给我们的范围和圈子中,限制了我们思维,它们拼命推荐给我们喜欢和想要看到的东西,可能我们的兴趣圈子越来越局限。

    作者回复: 是的,这也是各类推荐系统需要克服的缺点,也有各种尝试

    2018-11-05
    5
  • yaw
    我觉得把正确的合理的算法理论用于便捷生活,即使人的主导地位下降了,但是社会还是在进步中。说到底人只是存在于地球上的一个物种,过分的追求人的主宰地位会导致技术、社会发展遇到瓶颈,世界还是需要一些开创先河的人物。

    作者回复: 境界太高👍🏻

    2018-11-02
    4
  • 贾洵
    上一代互联网革命是电脑时代,是人找物,即搜索。下一代互联网革命是移动时代,是物找人,即推荐。必然离不开大数据与人工智能相结合。所以任何时候学习都不算晚

    作者回复: 确实如此

    2018-11-02
    4
  • Hesher
    推荐系统、广告系统、估价系统、风控系统都是现在广泛使用了机器学习的

    作者回复: 👍🏻

    2018-11-02
    4
  • KlausZ
    人工智能不可能统治人类,但是却可以毁灭人类。
    2018-12-24
    3
  • 会飞的鱼
    这样的技术也可以用在医疗领域上,通过对病人病例的统计,得到最理想的特征相关关系,从而得出最可能的病情

    作者回复: 是的

    2018-11-03
    3
  • 庆增
    学了这个专栏之后我可以成为一个大数据从业者吗?
    2018-11-02
    3
  • 技术小工
    现在出现了很多在网上爬数据分析的
    2018-11-01
    3
  • 刘胜
    我觉得在制造业领域引入大数据,通过分析海量数据优化公益流程,提高效益。类似于工业4.0。看完老师的文章,我有一种真切的感受,大数据是一个大的潮流。现在是2019年1月,起帆远航。
    2019-01-18
    2
  • 小千
    传统零售,货架摆放不可能像互联网页面一样做到对每个消费者实时调整。只能把所有消费者看做是一个整体来处理。对于大多数人来说,把啤酒喝尿布放在一起并不能促进购买欲
    还是举啤酒喝尿布的例子,我刚才在京东搜索啤酒,给我推荐是垃圾袋,和给你推荐的尿布不同。这就是互联网做产品展示优于传统零售的地方,传统零售不可能来一个人就把尿布换成垃圾袋的,哈哈。
    互联网零售比传统零售领先整整一代,就像火枪领先冷兵器,虽然火枪刚诞生的时候有这样那样的问题,但是火枪终究是火枪。

    作者回复: 对

    2018-11-05
    2
  • wmz
    数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
    2018-11-01
    2
  • 绿茶
    输入法收集我的输入信息,根据我输入的信息预测下一个输入
    2018-12-19
    1
收起评论
78
返回
顶部