01|列式存储已经取代行式存储了吗?
行列存储对比
- 深入了解
- 翻译
- 解释
- 总结
1. 行式存储适用于OLTP场景,而列式存储适用于OLAP场景,因为行式存储能以最少的磁盘读写代价处理一行业务数据的读写,而列式存储能够减少I/O操作,提高查询效率。 2. 列式存储在分析型数据库中的优势:在OLAP场景下,列式存储可以只读取所需的列,从而避免加载整个行的数据,这大大减少了I/O操作,提高了查询效率。 3. Parquet作为大数据时代下最流行的列式存储格式,很多分布式数据库都支持将Parquet文件作为外部表,也有很多数据查询引擎与计算框架如Spark、Presto、MapReduce等都支持直接读取分析Parquet文件。 4. Parquet文件的设计满足了多种要求,包括高效的编码与压缩算法、跨平台的数据交换能力以及高性能支持。 5. Parquet文件的格式包括列的元数据和文件的元数据,通过文件元数据可以快速找到需要读取的列块,实现了数据与元数据一起写入文件,避免了需要进行更新的情况。 6. Parquet文件的读取分析可以通过常用的大数据分析引擎实现,如Apache Spark、Apache Drill、Apache Impala、Presto等。 7. Parquet文件的构建可以通过多种方式实现,比如使用Python提供的PyArrow库,可以快速地将数据存储为Parquet文件。 8. 列式存储在大数据时代的发展趋势受到关注,数据已经成为企业数字化决策与战略方向制定的一个可靠参考,而这些决策的数据支撑都是通过采集企业内外部各个系统的数据,然后汇聚到基于列式存储的数据仓库,最后通过多维分析、挖掘出来的。 9. 大规模的分布式数据系统中,同时处理大数据量的实时随机存取与批量分析是一个很复杂的问题,因此诞生了Lamda的架构,其中Parquet作为数据管道传递格式发挥着重要作用。
《分布式数据库从入门到实战》,新⼈⾸单¥59
全部留言(1)
- 最新
- 精选
- -Hedon🍭思考题: 行式存储和列式存储都有其更加适合的场景,我个人认为,一种数据库单纯支持一种存储格式,才有可能将这种存储格式够做到极致,对于某些单一固定的场景,选择行式存储或列式存储中某一个可能是更好的选择。 但是绝大多数情况下都不需要这种“极致”,相反“灵活性”能带来更大的收益。所以混合模式可能在未来会更具有发展潜力。因为它能够提供更大的灵活性和优异的性能,适应不同的工作负载需求。2024-06-13归属地:湖北