• vigo
    2019-01-28
    智慧书,不仅说技术,还育人😄
    
     10
  • 玉剑冰锋
    2018-12-18
    您好老师,请教几个问题1.架构设计中数据压缩比及数据存储时效策略是如何设计的?2.数据的完整性如何验证?3.后期运行过程中尤其是某个节点存储空间低于其他节点时,是否会发生数据倾斜的问题?

    作者回复: 1.Doris没有做数据压缩
    2.Doris当时版本没有做完整性(正确性)验证,但是可以简单做多读,然后进行数据对比验证,不过这样要求的数据备份数要更多。
    3.不会,路由算法保证负载均衡,但是如果虚拟节点数和物理节点数相差不大时,会有数据倾斜,所以要求一开始设计的虚拟节点要足够多,是未来最大物理节点数的十倍以上

    
     4
  • 大京京
    2019-01-23
    有部分ppt内容是不准确的。新增一个物理节点,你前面说的算法是无法保证key1的路由节点pn1不移动的。只是数据迁移的时候,你是每个现有节点都各自迁移自己的一部分去新节点,现有节点之间不做迁移而已。
    
     3
  • 观弈道人
    2018-12-18
    老师你好,请问下,关于fail over部分,物理节点1,物理节点2是分别存储两片数据,当物理节点2挂掉的时候,文章中说物理节点1提供所有的read操作,我想问的是,节点1,2负责两片不同的数据,节点1如何承担原本访问节点2的读操作?谢谢。

    作者回复: 分片在group内分片,这里节点1,2分属不同group,存放的是同一份数据的两个拷贝

    
     2
  • 纯洁的憎恶
    2018-12-20
    感谢老师分享阿里巴巴的内部分布式数据库系统的立项过程。能了解行业头部的大公司,是如何作出如此重大决定,并快速落地支持、加速公司的成长。

    我虽然是计算机专业毕业,但并没有计算机工业领域的工作经历,所以可能对其中的一些细节缺乏应有的感知力,这个慢慢来吧。

    我目前在大型国企总部工作,在互联网+的大势下,公司立项了采购监督信息化课题,旨在借助大数据技术,实现采购管理全过程,事前、事中、事后的风险防控与预警体系。有效降低违法违规行为,提高效率。我正在参与这个课题,但是对项目中大数据技术的切入点,没有明确的思路,想听听老师建议。谢谢
    展开
    
     1
  • William
    2018-12-19
    还有一个疑问请帮忙解答一下:
    在集群伸缩设计方案中,假如一开始只有两台物理机,有10000个虚拟节点,那么每台物理机各存储5000个虚拟节点的数据;现在增加一台物理机,那么最后的数据存储效果是物理机分别存储5000,2500,2500个虚拟节点的数据吗?这样算不算数据倾斜?

    作者回复: 虚拟节点数分别是3333 3333 3334

    
     1
  • Jun
    2020-01-05
    李老师,你好。感觉老师是山西人。如果是,那么老乡你好。这一章的数学公式是从物理节点映射的虚拟节点。实际请求到来时,应该是虚拟节点到物理节点,有公式吗?还是直接用一个映射表?另外使用一致性哈希加虚拟节点也是比较好的方案,不需要复杂的节点映射了。亚麻的dynamo就是这么做的。

    作者回复: 有公式,具体可以参考专利文献 http://www2.soopat.com/Patent/201110294092?lx=FMSQ 或者项目源码。

    这个算法相对一致性hash的优势文中有比较。

    
    
  • 送普选
    2019-10-14
    虚拟节点设计的很多,再和物理节点映射,和Redis的数据Slot再映射到物理机有点像。
    另外存储系统单独分离出来有更大的灵活性,和 Apache Pulsar有点类似。
    故障检测通过心跳,加请求时汇报广播,想起之前公司基于做的一个中间件的数据层也是这样。
    技术要解决的问题有很多是一样的,原理和实现都是相通的。
     1
    
  • godtrue
    2019-09-28
    和redis的分片方式类似呀😄,你是虚拟节点,她是哈希槽。和一致性哈希也挺像的,只是虚拟节点和物理节点的映射更加的灵活可控。
    老师牛逼,致敬!

    作者回复: 谢谢😄

     1
    
  • weiruan85
    2019-08-02
    老师,文章中还有几个重要的问题没有提交:1. 这种设计下,cap是如何抉择的。 在发生网络分区的时候,是选择C 还是A ? 按照文章中的内容,感觉Doris没有采用逻辑日志复制的技术实现,而是采用了双写的实现思路,当时在设计时为什么这么考虑呢。 如果是双写,那么cap理论是不是就不太适用了,备份的数据和primary数据一定是一致的。 当网络发生分区后,执行故障转移,一直保证数据的一致性。

    作者回复: 在临时失效和恢复过程中,同一份数据的值在不同服务器上可能是不同的,不满足CAP中的C。但是Doris会选择正确的服务器读取数据,保证用户访问的数据是一致的,即用户一致性,失效恢复结束,多个数据拷贝的值也会恢复一致,即最终一致性。

    
    
  • 唔多志
    2019-07-17
    专栏真的是从 0 开始学大数据吗?看哭了,只能看懂一二两章
    
    
  • Hunter Liu
    2019-05-14
    一遍不太能吃透,待我多读几遍,看到各种大牛留言也很开阔视野
    
    
  • 张飞
    2019-03-06
    老师,节点映射关系个公式没看明白,可以解释一下吗? 一个虚拟节点对应两个对等的物理节点是什么意思?两个公式分别用来计算什么的呢?
    
    
  • Sam.张朝
    2018-12-25
    请教下,作为android开发工程师,小程序、H5、后台Java开发都有一定经验,对从事大数据研发工作的优势有哪些,特别是在和招聘HR,或者公司技术Leader 沟通时,如何阐明自己的优势,有何更有效的沟通,拿下一份工作?
    
    
  • lanpay
    2018-12-24
    看来借鉴的是Dynamo,据说增减节点有好多坑呢😜
    
    
  • William
    2018-12-19
    文章写得非常棒,受益非浅!有个疑问请帮忙解答一下,谢谢!
    文章在冗余备份实现方式中提到整个方案是双写保护可用性的,但是在临时失效的fail over 中数据恢复后变成双读的?(原文:物理节点2临时失效及恢复期间物理节点1承担所有的read操作)
    
    
我们在线,来聊聊吧