• 楚翔style
    2019-08-16
    老师,请教个问题:
    1.spark多表做join,表里的数据都要加载到内存的吗?
    2.假设都是上亿条数据,每张表有500+字段;导致内存不足,除了硬件角度处理,代码角度能否解决?
    
     2
  • 西兹兹
    2019-06-21
    想听老师讲讲storm与其它大数据框架的差异
    
     2
  • coder
    2019-06-14
    老师,再问两个问题:
    1、> PySpark 现在不支持 DataSet,只有 Scala 和 Java 支持。这是由语言特性决定的,Python 是动态类型的语言,而 DataSet 是强类型的,要求在编译时检测类型安全。所以,在所有用 Python 的代码例子中,我用的都是 DataFrame。

    怎么理解动态类型的语言不支持强类型的数据结构,编译时检测类型安全都在检测类型哪些方面的安全性?强类型和弱类型这种概念出现了很多次,但是一直不理解它们的含义,怎么从编译原理的角度去理解强类型和弱类型?

    2、流数据确实是无边界的,所以它们算出来的结果背后应该会有一套概率理论模型做支撑,准确说应该是一套基于局部时间窗口和全局数据概率统计模型的。也就是说我想得到最大值,这个最大值往往是局部时间窗口的,但是我如果想得到全局的最大值,岂不是要从流数据的源头就开始统计?
    基于局部时间窗口算出来的一般不是最准确的,那么对于那些需要非常精确处理结果的应用场景,流处理框架是不是就不适用了,或者需要结合其它技术来完善?
    流数据框架在哪些场景中是不适用的?
    展开
    
     1
  • Feng.X
    2019-06-14
    ^_^谢谢老师答疑解惑
    
     1
  • aof
    2019-06-14
    多谢老师的答疑
    
    
  • Geek_f89209
    2019-06-14
    老是,能介绍一下pyspark处理hbase数据源的方案吗,happybase虽然流行,但限制很多,无法批量按照每个row特定的前缀过滤数据?我们目前的方案是用java原生这个处理hbase的进程,用py4j和这个进程通信
    
    
我们在线,来聊聊吧