你好,我是蔡元楠。
时间过的真快,转眼间我们已经结束了前五个模块的学习,来到了最后一个模块“大规模数据的挑战和未来”。
一门技术类课程的常见学习路线就是“过去→现在→未来”。这个专栏也是如此,我们首先研究了大数据处理技术的发展历程,从 MapReduce 出发,深入剖析了它的设计思路和优缺点。接下来结合具体的例子,一起学习了当下最流行的数据处理框架 Spark 和 Apache Beam。
在这个过程中,你不难发现,任何一门技术的出现都是为了解决实际问题,改进之前的技术所存在的缺陷,而贯穿整个课程的两大场景就是批处理和流处理。
Spark 在 MapReduce 的基础上不断改进,在批处理这方面有良好的性能,在流处理上也在不断提高。Apache Beam 更是一个统一批处理和流处理的框架。
正如我在开篇词中写到的,我理想中的专栏是一份与你一同成长的计划。虽然我们已经对当下流行的技术有了深入的了解,但是作为一名架构师,你的目光一定要放长远,要时刻对未来 5~10 年,乃至 20 年的新问题和技术发展方向保持了解,不能固步自封,只满足于现状。毕竟,我们的征途是星辰大海。
在模块六中,我将列举三个大数据处理技术未来的方向,带你了解这些问题的挑战和难度,并学习现有的解决方案。希望通过这一模块的学习,你可以对大数据处理的未来有一些初步的认识,并强化自己学习新知识的能力。