作者回复: 谢谢你的留言!感觉活捉了一只技术大牛呢。
是的,Spark的话虽然原生Spark Streaming Model和Dataflow Model不一样,但是Cloudera Labs也有根据Dataflow Model的原理实现了Spark Dataflow使得Beam可以跑Spark runner。
而对于Flink来说的话,在0.10版本以后它的DataStream API就已经是根据Dataflow Model的思想来重写了。现在Flink也支持两套API,分别是DataStream版本的和Beam版本的。其实data Artisans一直都有和Google保持交流,希望未来两套Beam和Flink的API能达到统一。
最后赞一点批处理是流处理的子集,这个观点我在第一讲留言也提到过。
如果觉得有收获,欢迎分享给朋友!同时也欢迎你继续留言交流,一起学习进步!
作者回复: 你说的很好啊
作者回复: 谢谢肯定。期待你后面的留言。
也欢迎推荐给朋友!
作者回复: 你理解的很多!期待你后面的分享
作者回复: 数据的索引查询和这里的数据处理是两个话题。关于怎么提高数据系统的查询效率,我在考虑要不要开一个存储系统高性能索引专栏。
我不知道你的查询有多复杂,简单处理的话,可以先试试建一些常见查询路径的索引表。写的时候往两张表写或者再做一些专门的建索引的数据处理系统。
作者回复: 你说的对,WordCount就像helloworld,真实业务场景肯定会复杂很多。
作者回复: 并没有说flink比不上spark。。。这篇没有展开比较。只是带了一句话flink的流处理批处理api不一样。
作者回复: 谢谢你的留言!我在第十讲中所讲解到的Lambda Architecture应该会对你们的架构设计有所帮助。希望能在那时继续看到你的留言。
作者回复: 谢谢你的肯定!同时也欢迎你把专栏分享给朋友。
作者回复: 谢谢你的提问!在留言区里的Dataflow指的是Google在2015发表的Dataflow Model数据处理模型。
作者回复: 专栏里提到了这种应用在google有1000个,所以很难概括说这类应用google怎么处理的。你的方法既然能解决问题就好了。
关于流处理批处理后面的章节还会深入讨论。
作者回复: 这个是很典型的问题。后面学到了一些框架之后可以很方便用groupBy进行处理。
作者回复: 似乎和本篇内容并不相关。general的技术咨询我看看能不能让平台拉群讨论
作者回复: 都是很好的问题
1 SQL 就是一个统一的用户界面,后面的引擎可以是hive也可以是自己实现的别的
2 看到spark部分就知道了 :)
3 的确,监控部分我可以看看是否在后面的部分增加章节
作者回复: 容错性是很重要的问题,两个的容错性设计方案是不同的。
作者回复: 谢谢,欢迎把专栏分享给朋友