• 顾仲贤
    2018-12-20
    当时有好友在Cloudera工作,聊起过Impala开发。Impala其实就是一个MPP的database execution engine, 但很多地方不成熟。最大的问题就是不支持spilling. 所以才导致很多operation会吃光内存,比如hash join, group by aggregation或sorting (一个趣事,Impala在执行order by语句会强制要求有limit语句)。但Hive是mapreduce engine本质对内存需求不大。
    
     7
  • 阿神
    2018-12-22
    spark也是耗内存的,怎么就不会失去响应?

    作者回复: spark的内存策略更多样,可以在内存不足时使用磁盘。最重要的,spark的rdd lineage,可以使spark针对一个分片进行溯源重建,容错能力非常强。

    
     6
  • 盖饭
    2019-04-15
    看来很多人都跟不上了,已经完全不是从0开始了😁
    
     3
  • Geek_8c4277
    2019-08-18
    遇到大量数据的分组问题:有上亿条记录,十几个字段,需支持任意几个字段group by,还能分页查看与几秒响应,研究过一些方案,多数都只支持topN,要么就是响应慢,我们计划开发模块进行数据预生成,缺点就是组合多,老师觉得我们的思路有问题吗?

    作者回复: 能解决问题就没问题~~
    可以关注下ES

     1
     1
  • 细小软也会有梦想
    2019-02-19
    我们公司都是跑TPCH和TPCDS进行跑分。
    
     1
  • 青铜5 周群力
    2018-12-30
    老师能否推荐下性能优化、基准测试这方面更深入的书或其他学习资料?看了这几期有很多困惑,比如spark性能测试为啥选的是一个视频处理程序,为啥不用基准测试程序呢
    
     1
  • 💪😊
    2018-12-20
    这也许就是前面李老师说的抽象能力的体现吧。spark做的类似mapreduce的通用计算而且体验上非常好。这点很重要。而impala和presto由于过于关注响应时延 ,导致其关注的需求并不太通用,同时它的确解决了一些场景比spark好。但是场景太局限
    
     1
  • godtrue
    2019-09-28
    基准测试——就是对一个产品全方位的各种测试,用于评估这个东西在各方面的性能情况。
    HiBench值得尝试。
    数据量比较大时Impala的join就不行了,猜测她的join操作会把数据都拿到内存中关联,即使内存不足了也不留一些活命,自己把自己活动空间给挤没啦!
    
    
  • aof
    2018-12-22
    数据计算,中间结果都是放在内存,如果数据量大了之后,内存就不够用了
    
    
我们在线,来聊聊吧