极客时间-轻松学习，高效学习-极客邦

楚翔style

2019-08-16

老师,请教个问题:
1.spark多表做join,表里的数据都要加载到内存的吗?
2.假设都是上亿条数据,每张表有500+字段;导致内存不足,除了硬件角度处理,代码角度能否解决?



 2
西兹兹

2019-06-21

想听老师讲讲storm与其它大数据框架的差异



 2
coder

2019-06-14

老师，再问两个问题：
1、> PySpark 现在不支持 DataSet，只有 Scala 和 Java 支持。这是由语言特性决定的，Python 是动态类型的语言，而 DataSet 是强类型的，要求在编译时检测类型安全。所以，在所有用 Python 的代码例子中，我用的都是 DataFrame。

怎么理解动态类型的语言不支持强类型的数据结构，编译时检测类型安全都在检测类型哪些方面的安全性？强类型和弱类型这种概念出现了很多次，但是一直不理解它们的含义，怎么从编译原理的角度去理解强类型和弱类型？

2、流数据确实是无边界的，所以它们算出来的结果背后应该会有一套概率理论模型做支撑，准确说应该是一套基于局部时间窗口和全局数据概率统计模型的。也就是说我想得到最大值，这个最大值往往是局部时间窗口的，但是我如果想得到全局的最大值，岂不是要从流数据的源头就开始统计？
基于局部时间窗口算出来的一般不是最准确的，那么对于那些需要非常精确处理结果的应用场景，流处理框架是不是就不适用了，或者需要结合其它技术来完善？
流数据框架在哪些场景中是不适用的？

展开



 1
Feng.X

2019-06-14

^_^谢谢老师答疑解惑



 1
aof

2019-06-14

多谢老师的答疑




Geek_f89209

2019-06-14

老是，能介绍一下pyspark处理hbase数据源的方案吗，happybase虽然流行，但限制很多，无法批量按照每个row特定的前缀过滤数据？我们目前的方案是用java原生这个处理hbase的进程，用py4j和这个进程通信



