极客时间-轻松学习，高效学习-极客邦

Lebron
2021-12-26
我对思考题的回答是两个输入数据源进行Join两边的数据采用相同的分区方式相比于不同的分区方式，可将宽依赖转为窄依赖。
11
纳兰残德
2021-11-18
按照这个描述感觉和tez比差异不大
2
CRT
2021-11-17
相同的哈希分区可以变宽依赖为窄依赖，具体应用为分桶表
1
何进财
2021-11-10
回答思考题，相同的哈希分区可以避免大量的数据经过网络传输。
1
Eternal
2023-03-23 来自重庆
还是要拥抱开源，封闭后脑子太死板了
Geek_f1c6e5
2022-09-06 来自上海
回答文章末尾问题，优化的是shuffle磁盘读写和文件数量。作者论文也和MPP架构计算引擎做了对比，spark确实会慢，但优势血缘和cp，所以要稳定，这也造就了使用场景的区别，究竟业内如何区别使用？我也卖个关子
火云邪神霸绝天下
2022-04-22
这哥们怎么想出来的？因为和工业界联系多？
核桃
2022-02-22
spark的内容其实并没有那么简单，现在使用的spark优化了很多东西，包括RDD的算子方面，这里提供了很多灵活的高度算法，同时还有spark stream和spark mllib的出现，spark算是同时具备流式和批处理两者的结合，这几年很火的flink也大有说取代spark的趋势~
共 2 条评论