21 | 从阿里内部产品看海量数据处理系统的设计（上）：Doris的立项

李智慧



该思维导图由 AI 生成，仅供参考

从今天开始，我会分两期内容来讨论阿里巴巴的一个海量数据处理系统的设计，这个系统的名字叫 Doris，它是阿里巴巴的一个内部产品。前面专栏曾经提到过，2010 年前后是各种 NoSQL 系统爆发的一个时期，各种开源 NoSQL 在这个时期发布出来，当时阿里巴巴也开发了自己的 NoSQL 系统 Doris。
Doris 的设计目标是支持海量的 KV 结构的数据存储，访问速度和可靠性要高于当时主流的 NoSQL 数据库，系统要易于维护和伸缩。和当时众多 NoSQL 系统相比，Doris 在架构设计上颇具独特性，路由算法、失效转移、集群扩容也有自己的创新之处，并成功申请三项技术专利。
在我们开始讨论 Doris 项目前，我想先跟你聊聊大公司是如何看待内部技术产品这件事。事实上，阿里巴巴内部底层技术产品的研发决策思路也颇有值得借鉴之处，你可以吸收其中好的经验，并把它转化到你所开发的产品上。
我们知道一家互联网公司主要靠自己的互联网产品盈利，比如阿里巴巴主要靠淘宝、天猫、阿里巴巴 B2B 网站等产品赚钱，而公司的工程师主要也是开发这些产品，但是这些产品通常都需要处理海量的用户请求和大规模的数据存储，所以在系统底层通常用到很多基础技术产品，比如分布式缓存、分布式消息队列、分布式服务框架、分布式数据库等。这些基础技术产品可以选择开源技术产品，也可以选择自己研发。自己研发的优点是可以针对业务场景进行定制开发，同时培养提高自己工程师的技术实力；缺点是投入大、风险高。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

阿里内部产品Doris的立项是一项关于海量数据处理系统设计的讨论。Doris是阿里巴巴的一个内部产品，旨在支持海量的KV结构的数据存储，并且在访问速度、可靠性和易于维护和伸缩方面具有创新性。该文章介绍了大公司如何看待内部技术产品的研发决策思路，以及工程师和公司之间的博弈。文章还提到了Doris项目的立项启动会上的PPT内容，包括项目的定位、创新和特点、功能目标和非功能目标、以及技术指标的设定。通过这些内容，读者可以了解到大公司内部技术产品研发的决策思路，以及Doris项目的创新设计和技术特点。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《从 0 开始学大数据》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(20)

最新
精选

钱
打卡，刚百度了一下老师，老师很厉害呀!非计算机转专业——电工——程序员——架构——外包——阿里——Intel——同程艺龙——极客时间，给我的感觉一直在开挂。也觉得自己是有编程的天分的，除此之外，老师一直在开挂是怎么做到的？训练自己的思维+不断的读书学习+大量项目实践？考研究生是不是也起到了很关键的作用？
作者回复: 惭愧，我觉得如果我有一点成就的话，最主要的就是在过往的学习和工作中曾经和一些优秀的人合作过，见识过一些真正厉害的人，知道山有多高，天有多远，然后默默的自己去努力。
2019-09-28
4
31
风中有个肉做的人
我目前负责公司产品开发迭代，角色类似团队小组长，我们依赖的数据源来源于大数据达标计算，我认为大数据技术是我的技术栈薄弱的一块，我想参与该块开发并提升自己的能力。但是按照部门领导的意思，一个纽扣，一个洞，专业的人做专业的事。难度在这，我想的几块解决方案如下： 1.技术A/B角色，万一大数据团队出现波动，需要了解该块技术和业务的人顶替 2.了解当前大数据团队在业务和技术上的不足，提出我参与后的解决方案 3.确保完成本职工作，以技术开放、学习了解的态度参与
作者回复: 念念不忘，必有回响，不要放弃，寻找机会
2018-12-29
2
10
黄海峰
当时没出现memcached和redis吗？比这两个流行的有什么优势
作者回复: 缓存的数据持久性（永久保存）和可靠性不能满足需求，缓存对内存的需求也不符合应用场景（当时需要存储千T级的数据）
2018-12-15

8
一块跑跑
技术指标都是经过如何评估计算出来的呢？
作者回复: 参考需求和业界指标，根据自己的设计方案评估。
2018-12-17

2
kajdyhsfidaporae
请问Doris最开始不是用在百度凤巢系统的嘛？怎么变成阿里的内部系统了，难道是两个东西？
作者回复: 同名
2021-10-18

1
ヾ(◍°∇°◍)ﾉﾞ
李老师，之前在公司听过您布道，很受鼓舞。后来有次您指导我们的bi产品，因为有事错过了交流机会。在这里一样跟您学习了很多，一般这类存储的最底层都会基于leveldb或者改进后的rocketdb进而做分布式和API包装吧
作者回复: 这是一种分布式存储系统开发的捷径，也有很多全部自己实现的。
2018-12-17

1
eternalxj
只听过百度doris,现在市场上的产品starrocks也是百度出去的开发的，确认这个是阿里的吗
作者回复: 不是，同名而已
2023-06-14归属地：江苏


纯洁的憎恶
1.通过现状分析发现问题与瓶颈。 2.通过市场研究，结合自身资源与手段，确定宏观路线图（产品定位）。 3.根据路线图，确定具体的解决方案（产品目标）。 4.基于具体目标，明确合理、可量化的业绩指标。
2018-12-20

3
张小男
很有意思的一件事，我看过几个极客的文章，在前面几个章节评论数多的看不完，到后面你会发现评论越来越少，只有一两页
2021-11-02

2
小高
教知识又教人，值了！
2019-04-21

2

收起评论