大数据应用实战
15
15
1.0x
00:00/00:00
登录|注册

05|数据存储:容量、性能与成本应如何取舍?

你好,我是曹犟。
在前面一节课中,我们学习了一个大数据系统的接入和传输系统应该如何设计。而数据在完成接入之后,需要作为数据资产存储下来。存储方案的选型,与后续我们要讲解的数据的计算和应用都是紧密相关的。
在这节课中,我们首先讨论存储系统设计上应该有哪些需要考虑的点,然后对主流存储方案进行一个典型的对比和分析,最后我还会带你结合实战场景,看一下应该如何设计一个具体的存储方案。
首先,我们需要讨论一下存储方案做技术设计时需要考虑哪些问题。

存储方案的重要性

在大数据系统的整体架构中,数据存储层扮演着至关重要的角色,是整个大数据处理链路的性能和成本控制核心。可以说,存储层的设计质量直接决定了大数据系统能否高效处理 PB 级别的数据。
然而,在实际构建大数据系统时,我们经常面临一个看似简单却极其复杂的问题:如何在容量、性能和成本之间找到最佳平衡点?
这三者构成了一个经典的“不可能三角”。想要支撑海量数据存储?成本必然急剧上升。想要满足毫秒级查询性能?可能又存储不了太多数据。想要控制总体成本在合理范围?可能就要在存储容量或查询性能上做出妥协。
让人头疼的是,大数据存储决策一旦失误,代价往往是巨大的。
这里我想分享给你一个实际的案例。神策数据在创立十年以来,底层存储系统曾经发生过两次变化。第一次,是在 2016 年左右,为了适应客户的需要,提升系统的可扩展性,将存储系统从某分布式 OLAP 数据库替换成 HDFS + Apache Kudu 的方案。我们先不提存储系统架构变化带来的开发成本,仅仅讨论迁移成本就让人印象深刻。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 存储方案的设计需要在容量、性能和成本之间找到最佳平衡点,以支撑海量数据存储并控制总体成本在合理范围内。 2. 一个好的存储方案应该能够满足数据的规模化增长、有效存储多样性的各类数据、分层存储策略的设计、数据全生命周期管理、不同应用下的读写模式优化、整体的成本控制以及安全合规方面的考量。 3. 存储方案的设计需要充分考虑未来技术发展,尽可能选择有技术前瞻性的主流技术方案,以减少存储重构的可能性。 4. 存储方案的设计需要满足安全合规方面的需求,包括字段加密、权限隔离、日志审计等。 5. 存储方案的设计需要能够每个层次采用不同的存储技术和成本结构,实现整体成本的最优化。 6. 存储方案的设计需要能够自动清理过期的数据,对冷数据采用更高压缩率,牺牲访问性能换取成本节省。 7. 存储方案的设计需要能够根据业务需求和法规要求,自动将数据在不同存储之间迁移。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据应用实战》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)