从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项

李智慧 2018-12-15
从今天开始,我会分两期内容来讨论阿里巴巴的一个海量数据处理系统的设计,这个系统的名字叫 Doris,它是阿里巴巴的一个内部产品。前面专栏曾经提到过,2010 年前后是各种 NoSQL 系统爆发的一个时期,各种开源 NoSQL 在这个时期发布出来,当时阿里巴巴也开发了自己的 NoSQL 系统 Doris。
Doris 的设计目标是支持海量的 KV 结构的数据存储,访问速度和可靠性要高于当时主流的 NoSQL 数据库,系统要易于维护和伸缩。和当时众多 NoSQL 系统相比,Doris 在架构设计上颇具独特,路由算法、失效转移、集群扩容也有自己的创新之处,并成功申请三项技术专利。
在我们开始讨论 Doris 项目前,我想先跟你聊聊大公司是如何看待内部技术产品这件事。事实上,阿里巴巴内部底层技术产品的研发决策思路也颇有值得借鉴之处,你可以吸收其中好的经验,并把它转化到你所开发的产品上。
我们知道一家互联网公司主要靠自己的互联网产品盈利,比如阿里巴巴主要靠淘宝、天猫、阿里巴巴 B2B 网站等产品赚钱,而公司的工程师主要也是开发这些产品,但是这些产品通常都需要处理海量的用户请求和大规模的数据存储,所以在系统底层通常用到很多基础技术产品,比如分布式缓存、分布式消息队列、分布式服务框架、分布式数据库等。这些基础技术产品可以选择开源技术产品,也可以选择自己研发。自己研发的优点是可以针对业务场景进行定制开发,同时培养提高自己工程师的技术实力;缺点是投入大、风险高。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(12)

  • godtrue
    打卡,刚百度了一下老师,老师很厉害呀!非计算机转专业——电工——程序员——架构——外包——阿里——Intel——同程艺龙——极客时间,给我的感觉一直在开挂。也觉得自己是有编程的天分的,除此之外,老师一直在开挂是怎么做到的?训练自己的思维+不断的读书学习+大量项目实践?
    考研究生是不是也起到了很关键的作用?

    作者回复: 惭愧,我觉得如果我有一点成就的话,最主要的就是在过往的学习和工作中曾经和一些优秀的人合作过,见识过一些真正厉害的人,知道山有多高,天有多远,然后默默的自己去努力。

    2019-09-28
    1
    5
  • 风中有个肉做的人
    我目前负责公司产品开发迭代,角色类似团队小组长,我们依赖的数据源来源于大数据达标计算,我认为大数据技术是我的技术栈薄弱的一块,我想参与该块开发并提升自己的能力。
    但是按照部门领导的意思,一个纽扣,一个洞,专业的人做专业的事。
    难度在这,我想的几块解决方案如下:
    1.技术A/B角色,万一大数据团队出现波动,需要了解该块技术和业务的人顶替
    2.了解当前大数据团队在业务和技术上的不足,提出我参与后的解决方案
    3.确保完成本职工作,以技术开放、学习了解的态度参与

    作者回复: 念念不忘,必有回响,不要放弃,寻找机会

    2018-12-29
    4
  • 黄海峰
    当时没出现memcached和redis吗?比这两个流行的有什么优势

    作者回复: 缓存的数据持久性(永久保存)和可靠性不能满足需求,缓存对内存的需求也不符合应用场景(当时需要存储千T级的数据)

    2018-12-15
    4
  • 纯洁的憎恶
    1.通过现状分析发现问题与瓶颈。
    2.通过市场研究,结合自身资源与手段,确定宏观路线图(产品定位)。
    3.根据路线图,确定具体的解决方案(产品目标)。
    4.基于具体目标,明确合理、可量化的业绩指标。
    2018-12-20
    1
  • 纯洁的憎恶
    我很想知道用现有产品,如一些NoSql开源产品、或者付费产品,为什么无法解决现有问题,这对作出自开发的决策时也是十分重要的。
    2018-12-20
    1
  • 杰之7
    通过这一节的学习,技术在伴随着业务的发展而逐步完善的,技术是手段,不落在正确的事情上一点用也没有,所以,在以后的工作中,我们需要知道技术不是目的,对个人和公司能解决实际问题的还 需要我们更多的去关注。

    在这篇文章中,老师讲述了针对外部产品扩容低,写性能较低,实时性低的问题,提出了阿里开发Doris,目的是支持海量存储,伸缩性,同时有低运维成本。指标是一百台以上的Machine.至于后文,还请听老师的下文分享。
    2018-12-19
    1
  • 💪😊
    李老师,之前在公司听过您布道,很受鼓舞。后来有次您指导我们的bi产品,因为有事错过了交流机会。在这里一样跟您学习了很多,一般这类存储的最底层都会基于leveldb或者改进后的rocketdb进而做分布式和API包装吧

    作者回复: 这是一种分布式存储系统开发的捷径,也有很多全部自己实现的。

    2018-12-17
    1
  • 一块跑跑
    技术指标都是经过如何评估计算出来的呢?

    作者回复: 参考需求和业界指标,根据自己的设计方案评估。

    2018-12-17
    1
  • 行者
    教知识又教人,值了!
    2019-04-21
  • 小老鼠
    现在该产品如何何了?
    2019-01-17
  • clairec
    最近在筹备公司级专项,看您的指导,茅塞顿开。
    2019-01-02
  • lanpay
    当时业内标杆应该是hbase和Cassandra,不知道Doris设计上借鉴哪个多些😄
    2018-12-24
收起评论
12
返回
顶部