Jxin
2020-09-23
重分布这个有疑惑: 如果我有多个关联查询呢?每次关联查询都重分布?这样重分布就可能是个死循环了。因为A关联查询和B关联查询的重分布,可能会相互影响。
作者回复: 多表关联会被拆解成多个阶段执行,21讲正好有个例子,可以关注下。
共 2 条评论
1
有铭
2020-09-23
Grace这个最早使用GHJ算法数据库没有查到啊? 很久以前就困惑传统数据库在分表分库后如何解决joint的问题。今天看到这篇文章后豁然开朗
作者回复: Grace出处这个说法是从论文中来的,我也没有考证,应该是某个学术界的数据库吧。
Jowin
2021-03-08
分布式数据库的并行查询,底层依赖的是和大数据计算平台相同的并行计算技术。可以想见,在Spark上支持SQL查询,其实是一样的原理。这一讲非常棒,把分布式数据库和大数据技术串起来了!
2
Geek_64affe
2022-05-10
思考题最主要的问题我觉得应该是如何确定 大/小 表
wy
2021-01-26
老师有个问题不理解 假设两个表数据量一样大都是n,那么嵌套循环的复杂度是n*n ,而排序归并的复杂度应该是nlogn+nlogn+2*n约等于nlogn。这样看的话排序归并的效率更高一点,但是文中你说成本更高一些,体现在什么地方呢
共 1 条评论
black_mirror
2020-12-28
HI,Ivan老师好 1、GHJ算法,是不是每次只把inner表bucket加入内存,而outer表的bucket一直在磁盘中,进行2者的比较? 2、observer node4 节点第2个工作线程是不是应该叫4-2 ?
幼儿编程教学
2020-11-22
大表join,查询过来的时候,再做重分布?在节点间移动数据?这样不会很慢?是不是我的理解哪里有问题?这种指的是olap吧?
星之柱
2020-11-18
h如果选择的inner表ash不均衡的时候,就退化成了嵌套循环
游弋云端
2020-09-24
“在计算逻辑允许的情况下,建立阶段选择数据量较小的表作为 Inner 表”,我的问题就是在什么情况下,系统无法根据数据量决定 Inner 表呢? 答复:如果连接属性本身内容重复较多,但是表格很大,这样反而选择较大的表格作为 Inner 表,可以根据内容相同,从而节省Hash的计算资源。想到这种场景。
赵见跃
2020-09-24
哈希算法,“在计算逻辑允许的情况下,建立阶段选择数据量较小的表作为 Inner 表”,我的问题就是在什么情况下,系统无法根据数据量决定 Inner 表呢?这个问题,也很困惑,大家给指点一下呀,谢谢。