16 |备份和恢复:一次误操作中断7小时
白园
你好,我是白园。今天我来分享数据备份的案例和背后的本质,数据可靠性如何保障和提升,我们先看两个案例。
2018 年 8 月,腾讯云的客户“前沿数控”,遭遇了操作系统云盘故障,故障导致文件系统元数据受损。针对这个事件,腾讯云随后发布了一份技术性复盘报告,复盘结果显示,故障的起因是磁盘故障,导致数据出现了单副本,又因为数据迁移过程中两次不当操作,最终导致云盘的三副本完全丢失,最终影响了整个数据的完整性。
2023 年 10 月 23 日,语雀平台发生了一次重大服务中断事件,故障时间超过 7 小时。经过调查,故障原因因为运维升级工具的缺陷而导致存储数据意外下线,进而引发了大规模的服务中断,比较幸运的是依靠备份的数据进行了恢复,最终没有造成数据的丢失。
从这两个案例来看,数据的备份和恢复非常重要,一旦数据丢失会造成非常大的影响和故障。那数据的备份和恢复的背后本质到底是什么呢?本质就是如何保障数据可靠性。
什么是数据可靠性?
数据可靠性是指存储数据的时候,数据能够保持完整性、可用性、一致性和持久性的能力。各个云存储都有自己的数据可靠性,比如 AWS 的 S3 数据可靠性是 11 个 9。百度云存储的可靠性是 10 个 9,腾讯云的是 11 个 9,阿里云是 10 个 9,dropbox 是 11 个 9。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
1. 数据备份和恢复案例:腾讯云客户“前沿数控”和语雀平台的数据恢复案例,强调了数据备份对避免数据丢失的重要性。 2. 数据可靠性的衡量方法:简便的事后评估方式和基于可靠性工程公式的全面评估,考虑硬件故障率和系统的平均恢复时间。 3. 影响数据可靠性的因素:副本数、故障率、恢复时间、故障类型。 4. 增加副本数的策略:直接增加副本、使用纠删码(Erasure Coding)、数据备份。 5. 降低故障率的方法:定期数据迁移、利用磁盘故障预测技术。 6. 数据可靠性建设的目标:增加副本数、降低故障率、提升恢复时间、减少故障次数。 7. 数据可靠性的关键参数:副本数、故障率、恢复时间、故障类型。 8. 不同云存储的数据可靠性:AWS的S3数据可靠性是11个9,百度云存储的可靠性是10个9,腾讯云的是11个9,阿里云是10个9,dropbox是11个9。 9. 数据可靠性的本质:保障数据的完整性、可用性、一致性和持久性。 10. 数据备份和恢复的重要性:一旦数据丢失会造成非常大的影响和故障。
仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
《SRE 实践:服务可靠性案例课》,新⼈⾸单¥59
立即购买
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论