楚翔style
2019-08-16
老师,请教个问题:
1.spark多表做join,表里的数据都要加载到内存的吗?
2.假设都是上亿条数据,每张表有500+字段;导致内存不足,除了硬件角度处理,代码角度能否解决?
2
西兹兹
2019-06-21
想听老师讲讲storm与其它大数据框架的差异
2
coder
2019-06-14
老师,再问两个问题:
1、> PySpark 现在不支持 DataSet,只有 Scala 和 Java 支持。这是由语言特性决定的,Python 是动态类型的语言,而 DataSet 是强类型的,要求在编译时检测类型安全。所以,在所有用 Python 的代码例子中,我用的都是 DataFrame。
怎么理解动态类型的语言不支持强类型的数据结构,编译时检测类型安全都在检测类型哪些方面的安全性?强类型和弱类型这种概念出现了很多次,但是一直不理解它们的含义,怎么从编译原理的角度去理解强类型和弱类型?
2、流数据确实是无边界的,所以它们算出来的结果背后应该会有一套概率理论模型做支撑,准确说应该是一套基于局部时间窗口和全局数据概率统计模型的。也就是说我想得到最大值,这个最大值往往是局部时间窗口的,但是我如果想得到全局的最大值,岂不是要从流数据的源头就开始统计?
基于局部时间窗口算出来的一般不是最准确的,那么对于那些需要非常精确处理结果的应用场景,流处理框架是不是就不适用了,或者需要结合其它技术来完善?
流数据框架在哪些场景中是不适用的?
展开
1
Feng.X
2019-06-14
^_^谢谢老师答疑解惑
1
aof
2019-06-14
多谢老师的答疑
Geek_f89209
2019-06-14
老是,能介绍一下pyspark处理hbase数据源的方案吗,happybase虽然流行,但限制很多,无法批量按照每个row特定的前缀过滤数据?我们目前的方案是用java原生这个处理hbase的进程,用py4j和这个进程通信
我们在线,来聊聊吧
✕
您好,当前有专业客服人员在线,让我们来帮助您吧。
我们在线,来聊聊吧