• 在路上
    2021-11-02
    徐老师好,我想Dremel一开始把数据放在硬盘上,是因为当时“计算和存储分离”还不是大数据领域的主流思想,MPP数据库把计算和存储放在一起的思路,在过去证明是有效的,Dremel借鉴过去的成功经验是理所当然的。在Dremel 2020年的论文的第3.1节提到“At the time, it seemed the best way to squeeze out maximal performance from an analytical system was by using dedicated hardware and direct-attached disks. As Dremel’s workload grew, it became increasingly difficult to manage it on a small fleet of dedicated servers”。也就是说,那个时候大家都认为把计算和存储放在一起才是最佳的方法,但是随着数据规模和查询负载的增加,服务器管理越来越困难。 在今天看来把数据放在GFS上,一定比放在本地好,但是这中间其实经过了很多优化,一开始的时候选择把数据放在本地是更好的选择,因为相关的技术都是很成熟的,把数据放在GFS上需要解决很多未知的问题。把数据放在GFS上有很多好处,第一,数据扩容方便,管理简单;第二,数据拥有多个副本,对容灾友好;第三,数据可以被Dremel之外的工具使用,也方便和其他团队共享。
    展开
    共 1 条评论
    20
  • 乐天
    2021-11-23
    分开存储的好处:计算和存储分离,可以提供资源的利用率,数据量大就单纯增加存储节点,计算量大就增加计算节点,能更好的利用资源。同时任务调度时不用综合考虑节点的性能和数据的位置。 坏处:增加了网络传输的时间。 这样做是因为硬件性能特别是网络传输设备的提升很大,大数据量的传输已经不是大问题了,数据传输的时间可能比任务等待调度执行的时间还要短。
    
    8
  • 峰
    2021-11-01
    好处:不用管存储的高可用,解决struggle的问题。 坏处:打破了数据计算在同节点的设计,造成一定网络开销,解决方法:gfs能够提供固定block位置的api。 问题:开源OLAP系统中,有像dremel这样可以加入中间层(层数> 1)的OLAP引擎吗? 以及如何确定中间层数。
    
    3
  • 陈迪
    2021-11-05
    尝试回答思考题:采用GFS最明显的好处是,存储扩展容易! 分片存储存本地硬盘,不可避免的、由于本地硬盘存不下了,要人肉做数据搬迁 或者 加一个元数据层进行管理,这不就是GFS么 另外,Dremel这个多层树状汇聚,很拉风!!
    
    2
  • LJK
    2022-02-19
    老师好,感觉Dremel的这种计算方式只适合简单计算,如果涉及join操作的话还如何通过这种树形服务拆分呢?
    
    1
  • 斜面镜子 Bill
    2021-11-01
    好处理解是本地访问性能和数据质量相对好保证,处理逻辑也相对简单。坏处就是弹性和IO的吞吐会比较限制。当然也想听听作者的解答。
    
    1
  • 哈达syn$
    2023-02-19 来自四川
    分开存储的好处:计算和存储分离,可以提供资源的利用率,数据量大就单纯增加存储节点,计算量大就增加计算节点,能更好的利用资源。同时任务调度时不用综合考虑节点的性能和数据的位置。 坏处:增加了网络传输的时间。 这样做是因为硬件性能特别是网络传输设备的提升很大,大数据量的传输已经不是大问题了,数据传输的时间可能比任务等待调度执行的时间还要短
    
    
  • ?
    2022-09-04 来自四川
    我觉得这个趋势是因为基础设施的发展,最开始数据和代码在一起是因为那时候网络的带宽有限。从远程读取数据对整个系统的性能影响较大。随着网络的发展,网络的开销逐渐不是影响架构的决定性的因素。其他的因素『扩容方便』『容灾恢复更快』占了决定性因素。
    
    
  • 核桃
    2022-02-22
    思考题的那里,问题就是以前存储和计算是不分离的,但是放在了GFS上面,那么数据的容错管理那些就交给了GFS了。但是这里也有一个潜在的问题,数据倾斜问题。不知道多少朋友遇到过。以前使用spark计算的时候,调度算法中如果优先在数据节点计算,那么当该节点中的数据很多都是热数据时,那么就容易出现问题了。当时还出现过生产事故,后面改了调度算法为公平调度才解决的。 所以如果避免存储系统的数据倾斜问题,一直以来都是一个痛点和难点,哈希算法目前来说,已经真的快走到头了。
    
    
  • piboye
    2022-01-16
    clickhouse 做到秒级别
    
    