极客时间-轻松学习，高效学习-极客邦

Jxin
2020-09-23
重分布这个有疑惑: 如果我有多个关联查询呢?每次关联查询都重分布？这样重分布就可能是个死循环了。因为A关联查询和B关联查询的重分布,可能会相互影响。
作者回复: 多表关联会被拆解成多个阶段执行，21讲正好有个例子，可以关注下。
共 2 条评论
1
有铭
2020-09-23
Grace这个最早使用GHJ算法数据库没有查到啊？很久以前就困惑传统数据库在分表分库后如何解决joint的问题。今天看到这篇文章后豁然开朗
作者回复: Grace出处这个说法是从论文中来的，我也没有考证，应该是某个学术界的数据库吧。
Jowin
2021-03-08
分布式数据库的并行查询，底层依赖的是和大数据计算平台相同的并行计算技术。可以想见，在Spark上支持SQL查询，其实是一样的原理。这一讲非常棒，把分布式数据库和大数据技术串起来了！
2
Geek_64affe
2022-05-10
思考题最主要的问题我觉得应该是如何确定大/小表
wy
2021-01-26
老师有个问题不理解假设两个表数据量一样大都是n,那么嵌套循环的复杂度是n*n ,而排序归并的复杂度应该是nlogn+nlogn+2*n约等于nlogn。这样看的话排序归并的效率更高一点，但是文中你说成本更高一些，体现在什么地方呢
共 1 条评论
black_mirror
2020-12-28
HI，Ivan老师好 1、GHJ算法，是不是每次只把inner表bucket加入内存，而outer表的bucket一直在磁盘中，进行2者的比较？ 2、observer node4 节点第2个工作线程是不是应该叫4-2 ？
幼儿编程教学
2020-11-22
大表join，查询过来的时候，再做重分布？在节点间移动数据？这样不会很慢？是不是我的理解哪里有问题？这种指的是olap吧？
星之柱
2020-11-18
h如果选择的inner表ash不均衡的时候，就退化成了嵌套循环
游弋云端
2020-09-24
“在计算逻辑允许的情况下，建立阶段选择数据量较小的表作为 Inner 表”，我的问题就是在什么情况下，系统无法根据数据量决定 Inner 表呢？答复：如果连接属性本身内容重复较多，但是表格很大，这样反而选择较大的表格作为 Inner 表，可以根据内容相同，从而节省Hash的计算资源。想到这种场景。
赵见跃
2020-09-24
哈希算法，“在计算逻辑允许的情况下，建立阶段选择数据量较小的表作为 Inner 表”，我的问题就是在什么情况下，系统无法根据数据量决定 Inner 表呢？这个问题，也很困惑，大家给指点一下呀，谢谢。