老师你好,我们是做学生学习情况的,现在要做实时,就是一节课的信息,是一个大json,1-10+M,其中嵌套多个json,由于各个子json的耦合性太强没办法分离,使用kafka的话一条数据太大了,数据是在OSS上,现在是先拉取到hdfs,
现在是发现3中方法,
1、java put到hdfs时,mq发送位置信息,sparkstreaming订阅,根据位置拉取
2、put 到hbase,sparkstreaming 扫描
3、使用sparkstreaming的textFileStream算子监控路径
三种方法没种都有很大的缺陷,老师能指点一下吗
展开