• Lebron
    2021-12-26
    我对思考题的回答是两个输入数据源进行Join两边的数据采用相同的分区方式相比于不同的分区方式,可将宽依赖转为窄依赖。
    
    11
  • 纳兰残德
    2021-11-18
    按照这个描述感觉和tez比 差异不大
    
    2
  • CRT
    2021-11-17
    相同的哈希分区可以变宽依赖为窄依赖,具体应用为分桶表
    
    1
  • 何进财
    2021-11-10
    回答思考题,相同的哈希分区可以避免大量的数据经过网络传输。
    
    1
  • Eternal
    2023-03-23 来自重庆
    还是要拥抱开源,封闭后脑子太死板了
    
    
  • Geek_f1c6e5
    2022-09-06 来自上海
    回答文章末尾问题,优化的是shuffle磁盘读写和文件数量。作者论文也和MPP架构计算引擎做了对比,spark确实会慢,但优势血缘和cp,所以要稳定,这也造就了使用场景的区别,究竟业内如何区别使用?我也卖个关子
    
    
  • 火云邪神霸绝天下
    2022-04-22
    这哥们怎么想出来的?因为和工业界联系多?
    
    
  • 核桃
    2022-02-22
    spark的内容其实并没有那么简单,现在使用的spark优化了很多东西,包括RDD的算子方面,这里提供了很多灵活的高度算法,同时还有spark stream和spark mllib的出现,spark算是同时具备流式和批处理两者的结合,这几年很火的flink也大有说取代spark的趋势~
    共 2 条评论
    