Lebron
2021-12-26
我对思考题的回答是两个输入数据源进行Join两边的数据采用相同的分区方式相比于不同的分区方式,可将宽依赖转为窄依赖。
11
纳兰残德
2021-11-18
按照这个描述感觉和tez比 差异不大
2
CRT
2021-11-17
相同的哈希分区可以变宽依赖为窄依赖,具体应用为分桶表
1
何进财
2021-11-10
回答思考题,相同的哈希分区可以避免大量的数据经过网络传输。
1
Eternal
2023-03-23
来自重庆
还是要拥抱开源,封闭后脑子太死板了
Geek_f1c6e5
2022-09-06
来自上海
回答文章末尾问题,优化的是shuffle磁盘读写和文件数量。作者论文也和MPP架构计算引擎做了对比,spark确实会慢,但优势血缘和cp,所以要稳定,这也造就了使用场景的区别,究竟业内如何区别使用?我也卖个关子
火云邪神霸绝天下
2022-04-22
这哥们怎么想出来的?因为和工业界联系多?
核桃
2022-02-22
spark的内容其实并没有那么简单,现在使用的spark优化了很多东西,包括RDD的算子方面,这里提供了很多灵活的高度算法,同时还有spark stream和spark mllib的出现,spark算是同时具备流式和批处理两者的结合,这几年很火的flink也大有说取代spark的趋势~
共 2 条评论