从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新

李智慧 2018-12-18
上一期,Doris 提出了目前阿里巴巴海量 KV 存储方面的问题,给出了 Doris 的业务价值、设计目标和技术指标。但是 Doris 项目组还必须证明自己有已经经过论证的架构技术方案,可以实现前面设定的目标,立项后可以迅速启动执行,不需要再去摸索尝试,风险可以把控。
因此,PPT 后面的内容主要就是阐述Doris 的架构方案和创新设计
Doris 是一种支持 Key、Value 数据结构的分布式存储系统,核心要解决的问题是分布式路由、分布式集群伸缩、分布式数据冗余与失效转移。所以 Doris 把分布式存储系统很重要的一块,也就是数据存储部分转移出去,使用第三方软件完成,当时选择 Berkeley DB 作为 Doris 的底层存储 Store,Doris 自己专注于分布式技术实现。
Doris 的主要访问模型是,应用程序 KV Client 启动后,连接控制中心 Administration,从控制中心获得整个 Doris 集群的服务器部署信息及路由算法,Client 使用 Key 作为参数进行路由计算,计算得到集群中某些服务器作为当前 Key、Value 数据存储的服务器节点;然后 KV Client 使用自定义的通信协议将数据和命令传输给服务器上的 Data Server 组件,DataServer 再调用本地的 Berkeley DB 将数据存储到本地磁盘。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(15)

  • vigo
    智慧书,不仅说技术,还育人😄
    2019-01-28
    10
  • 玉剑冰锋
    您好老师,请教几个问题1.架构设计中数据压缩比及数据存储时效策略是如何设计的?2.数据的完整性如何验证?3.后期运行过程中尤其是某个节点存储空间低于其他节点时,是否会发生数据倾斜的问题?

    作者回复: 1.Doris没有做数据压缩
    2.Doris当时版本没有做完整性(正确性)验证,但是可以简单做多读,然后进行数据对比验证,不过这样要求的数据备份数要更多。
    3.不会,路由算法保证负载均衡,但是如果虚拟节点数和物理节点数相差不大时,会有数据倾斜,所以要求一开始设计的虚拟节点要足够多,是未来最大物理节点数的十倍以上

    2018-12-18
    4
  • 大京京
    有部分ppt内容是不准确的。新增一个物理节点,你前面说的算法是无法保证key1的路由节点pn1不移动的。只是数据迁移的时候,你是每个现有节点都各自迁移自己的一部分去新节点,现有节点之间不做迁移而已。
    2019-01-23
    2
  • 观弈道人
    老师你好,请问下,关于fail over部分,物理节点1,物理节点2是分别存储两片数据,当物理节点2挂掉的时候,文章中说物理节点1提供所有的read操作,我想问的是,节点1,2负责两片不同的数据,节点1如何承担原本访问节点2的读操作?谢谢。

    作者回复: 分片在group内分片,这里节点1,2分属不同group,存放的是同一份数据的两个拷贝

    2018-12-18
    2
  • 纯洁的憎恶
    感谢老师分享阿里巴巴的内部分布式数据库系统的立项过程。能了解行业头部的大公司,是如何作出如此重大决定,并快速落地支持、加速公司的成长。

    我虽然是计算机专业毕业,但并没有计算机工业领域的工作经历,所以可能对其中的一些细节缺乏应有的感知力,这个慢慢来吧。

    我目前在大型国企总部工作,在互联网+的大势下,公司立项了采购监督信息化课题,旨在借助大数据技术,实现采购管理全过程,事前、事中、事后的风险防控与预警体系。有效降低违法违规行为,提高效率。我正在参与这个课题,但是对项目中大数据技术的切入点,没有明确的思路,想听听老师建议。谢谢
    2018-12-20
    1
  • William
    还有一个疑问请帮忙解答一下:
    在集群伸缩设计方案中,假如一开始只有两台物理机,有10000个虚拟节点,那么每台物理机各存储5000个虚拟节点的数据;现在增加一台物理机,那么最后的数据存储效果是物理机分别存储5000,2500,2500个虚拟节点的数据吗?这样算不算数据倾斜?

    作者回复: 虚拟节点数分别是3333 3333 3334

    2018-12-19
    1
  • 送普选
    虚拟节点设计的很多,再和物理节点映射,和Redis的数据Slot再映射到物理机有点像。
    另外存储系统单独分离出来有更大的灵活性,和 Apache Pulsar有点类似。
    故障检测通过心跳,加请求时汇报广播,想起之前公司基于做的一个中间件的数据层也是这样。
    技术要解决的问题有很多是一样的,原理和实现都是相通的。
    2019-10-14
    1
  • godtrue
    和redis的分片方式类似呀😄,你是虚拟节点,她是哈希槽。和一致性哈希也挺像的,只是虚拟节点和物理节点的映射更加的灵活可控。
    老师牛逼,致敬!

    作者回复: 谢谢😄

    2019-09-28
    1
  • weiruan85
    老师,文章中还有几个重要的问题没有提交:1. 这种设计下,cap是如何抉择的。 在发生网络分区的时候,是选择C 还是A ? 按照文章中的内容,感觉Doris没有采用逻辑日志复制的技术实现,而是采用了双写的实现思路,当时在设计时为什么这么考虑呢。 如果是双写,那么cap理论是不是就不太适用了,备份的数据和primary数据一定是一致的。 当网络发生分区后,执行故障转移,一直保证数据的一致性。

    作者回复: 在临时失效和恢复过程中,同一份数据的值在不同服务器上可能是不同的,不满足CAP中的C。但是Doris会选择正确的服务器读取数据,保证用户访问的数据是一致的,即用户一致性,失效恢复结束,多个数据拷贝的值也会恢复一致,即最终一致性。

    2019-08-02
  • 小智e
    专栏真的是从 0 开始学大数据吗?看哭了,只能看懂一二两章
    2019-07-17
  • Hunter Liu
    一遍不太能吃透,待我多读几遍,看到各种大牛留言也很开阔视野
    2019-05-14
  • 张飞
    老师,节点映射关系个公式没看明白,可以解释一下吗? 一个虚拟节点对应两个对等的物理节点是什么意思?两个公式分别用来计算什么的呢?
    2019-03-06
  • Sam.张朝
    请教下,作为android开发工程师,小程序、H5、后台Java开发都有一定经验,对从事大数据研发工作的优势有哪些,特别是在和招聘HR,或者公司技术Leader 沟通时,如何阐明自己的优势,有何更有效的沟通,拿下一份工作?
    2018-12-25
  • lanpay
    看来借鉴的是Dynamo,据说增减节点有好多坑呢😜
    2018-12-24
  • William
    文章写得非常棒,受益非浅!有个疑问请帮忙解答一下,谢谢!
    文章在冗余备份实现方式中提到整个方案是双写保护可用性的,但是在临时失效的fail over 中数据恢复后变成双读的?(原文:物理节点2临时失效及恢复期间物理节点1承担所有的read操作)
    2018-12-19
收起评论
15
返回
顶部