作者回复: Ball同学, 你好,收到这个留言很高兴,也希望后续的内容能对你有帮助。
作者回复: 感谢支持,欢迎和我一起坚持完整个专栏
作者回复: Condor Hero同学, 你好,的确作为科普文看是不错。我会尽量减少对于各类知识的“前置依赖”,有需要依赖特定知识的时候也会尽量给出推荐可以补充阅读的基础知识。不过对于学习大数据来说,的确对于后端开发有一些基本认识会更有效率一些。
作者回复: 👍
作者回复: 👍 一起加油呀。
作者回复: vkingnew同学,你好, 过去20年实际互联网工程届主流的解决方案还是 OLAP和OLTP分开,两边数据通过ETL或者其他各种方式同步。并且不断优化的是能够缩短两边同步的Latency。现在所谓的很多HTAP方案其实也是这样一个工程方案,而不是在数据库的存储引擎上有什么新发明。 我自己个人观点也是 HTAP 太理想化了,不过这个事情很难说,大部分工程师也没有想到Spanner的出现。
作者回复: Dataflow是Google发表的对于实时数据处理或者说通用数据处理相对总结性的论文。 但是和Google的很多系统一样,Dataflow只有论文,Google并没有把代码开源出来。只开源了一个类似于标准接口层的Apache Beam。 Flink可能是现在最接近Dataflow论文原始实现的一个系统了。 对于AWS,抱歉一方面大部分大数据论文都来自于Google,另一方面我们也重度使用GCP而不是AWS,所以AWS的产品我并不熟悉。
作者回复: 那就趁着这个机会多读几篇吧,读论文是一种很有意思的思维实验
作者回复: Percolator 这个系统高度和搜索引擎的索引更新相关,考虑到整个专栏的通用性,以及篇幅的限制,所以没有选择讲解这篇论文。
作者回复: 实战是需要的,如果完全没有实际体验过大数据的开发,可能很多概念理解起来会更难。 一个办法是现在很多云服务都有免费的额度,比如Google Cloud就可以有免费300美元的额度,你可以直接在上面试着跑一些示例程序找找感觉。