05|数据存储:容量、性能与成本应如何取舍?
曹犟

你好,我是曹犟。
在前面一节课中,我们学习了一个大数据系统的接入和传输系统应该如何设计。而数据在完成接入之后,需要作为数据资产存储下来。存储方案的选型,与后续我们要讲解的数据的计算和应用都是紧密相关的。
在这节课中,我们首先讨论存储系统设计上应该有哪些需要考虑的点,然后对主流存储方案进行一个典型的对比和分析,最后我还会带你结合实战场景,看一下应该如何设计一个具体的存储方案。
首先,我们需要讨论一下存储方案做技术设计时需要考虑哪些问题。
存储方案的重要性
在大数据系统的整体架构中,数据存储层扮演着至关重要的角色,是整个大数据处理链路的性能和成本控制核心。可以说,存储层的设计质量直接决定了大数据系统能否高效处理 PB 级别的数据。
然而,在实际构建大数据系统时,我们经常面临一个看似简单却极其复杂的问题:如何在容量、性能和成本之间找到最佳平衡点?
这三者构成了一个经典的“不可能三角”。想要支撑海量数据存储?成本必然急剧上升。想要满足毫秒级查询性能?可能又存储不了太多数据。想要控制总体成本在合理范围?可能就要在存储容量或查询性能上做出妥协。
让人头疼的是,大数据存储决策一旦失误,代价往往是巨大的。
这里我想分享给你一个实际的案例。神策数据在创立十年以来,底层存储系统曾经发生过两次变化。第一次,是在 2016 年左右,为了适应客户的需要,提升系统的可扩展性,将存储系统从某分布式 OLAP 数据库替换成 HDFS + Apache Kudu 的方案。我们先不提存储系统架构变化带来的开发成本,仅仅讨论迁移成本就让人印象深刻。
公开
同步至部落
取消
完成
0/2000
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结

1. 存储方案的设计需要在容量、性能和成本之间找到最佳平衡点,以支撑海量数据存储并控制总体成本在合理范围内。 2. 一个好的存储方案应该能够满足数据的规模化增长、有效存储多样性的各类数据、分层存储策略的设计、数据全生命周期管理、不同应用下的读写模式优化、整体的成本控制以及安全合规方面的考量。 3. 存储方案的设计需要充分考虑未来技术发展,尽可能选择有技术前瞻性的主流技术方案,以减少存储重构的可能性。 4. 存储方案的设计需要满足安全合规方面的需求,包括字段加密、权限隔离、日志审计等。 5. 存储方案的设计需要能够每个层次采用不同的存储技术和成本结构,实现整体成本的最优化。 6. 存储方案的设计需要能够自动清理过期的数据,对冷数据采用更高压缩率,牺牲访问性能换取成本节省。 7. 存储方案的设计需要能够根据业务需求和法规要求,自动将数据在不同存储之间迁移。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》,新⼈⾸单¥59
《大数据应用实战》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论