• Jxin
    2020-09-23
    重分布这个有疑惑: 如果我有多个关联查询呢?每次关联查询都重分布?这样重分布就可能是个死循环了。因为A关联查询和B关联查询的重分布,可能会相互影响。

    作者回复: 多表关联会被拆解成多个阶段执行,21讲正好有个例子,可以关注下。

    共 2 条评论
    1
  • 有铭
    2020-09-23
    Grace这个最早使用GHJ算法数据库没有查到啊? 很久以前就困惑传统数据库在分表分库后如何解决joint的问题。今天看到这篇文章后豁然开朗

    作者回复: Grace出处这个说法是从论文中来的,我也没有考证,应该是某个学术界的数据库吧。

    
    
  • Jowin
    2021-03-08
    分布式数据库的并行查询,底层依赖的是和大数据计算平台相同的并行计算技术。可以想见,在Spark上支持SQL查询,其实是一样的原理。这一讲非常棒,把分布式数据库和大数据技术串起来了!
    
    2
  • Geek_64affe
    2022-05-10
    思考题最主要的问题我觉得应该是如何确定 大/小 表
    
    
  • wy
    2021-01-26
    老师有个问题不理解 假设两个表数据量一样大都是n,那么嵌套循环的复杂度是n*n ,而排序归并的复杂度应该是nlogn+nlogn+2*n约等于nlogn。这样看的话排序归并的效率更高一点,但是文中你说成本更高一些,体现在什么地方呢
    共 1 条评论
    
  • black_mirror
    2020-12-28
    HI,Ivan老师好 1、GHJ算法,是不是每次只把inner表bucket加入内存,而outer表的bucket一直在磁盘中,进行2者的比较? 2、observer node4 节点第2个工作线程是不是应该叫4-2 ?
    
    
  • 幼儿编程教学
    2020-11-22
    大表join,查询过来的时候,再做重分布?在节点间移动数据?这样不会很慢?是不是我的理解哪里有问题?这种指的是olap吧?
    
    
  • 星之柱
    2020-11-18
    h如果选择的inner表ash不均衡的时候,就退化成了嵌套循环
    
    
  • 游弋云端
    2020-09-24
    “在计算逻辑允许的情况下,建立阶段选择数据量较小的表作为 Inner 表”,我的问题就是在什么情况下,系统无法根据数据量决定 Inner 表呢? 答复:如果连接属性本身内容重复较多,但是表格很大,这样反而选择较大的表格作为 Inner 表,可以根据内容相同,从而节省Hash的计算资源。想到这种场景。
    
    
  • 赵见跃
    2020-09-24
    哈希算法,“在计算逻辑允许的情况下,建立阶段选择数据量较小的表作为 Inner 表”,我的问题就是在什么情况下,系统无法根据数据量决定 Inner 表呢?这个问题,也很困惑,大家给指点一下呀,谢谢。
    
    