SRE 实践:服务可靠性案例课
白园
前百度资深运维专家,前快手资深 SRE 专家
1678 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已更新 19 讲/共 29 讲
SRE 实践:服务可靠性案例课
15
15
1.0x
00:00/00:00
登录|注册

16 |备份和恢复:一次误操作中断7小时

你好,我是白园。今天我来分享数据备份的案例和背后的本质,数据可靠性如何保障和提升,我们先看两个案例。
2018 年 8 月,腾讯云的客户“前沿数控”,遭遇了操作系统云盘故障,故障导致文件系统元数据受损。针对这个事件,腾讯云随后发布了一份技术性复盘报告,复盘结果显示,故障的起因是磁盘故障,导致数据出现了单副本,又因为数据迁移过程中两次不当操作,最终导致云盘的三副本完全丢失,最终影响了整个数据的完整性。
2023 年 10 月 23 日,语雀平台发生了一次重大服务中断事件,故障时间超过 7 小时。经过调查,故障原因因为运维升级工具的缺陷而导致存储数据意外下线,进而引发了大规模的服务中断,比较幸运的是依靠备份的数据进行了恢复,最终没有造成数据的丢失。
从这两个案例来看,数据的备份和恢复非常重要,一旦数据丢失会造成非常大的影响和故障。那数据的备份和恢复的背后本质到底是什么呢?本质就是如何保障数据可靠性。

什么是数据可靠性?

数据可靠性是指存储数据的时候,数据能够保持完整性、可用性、一致性和持久性的能力。各个云存储都有自己的数据可靠性,比如 AWS 的 S3 数据可靠性是 11 个 9。百度云存储的可靠性是 10 个 9,腾讯云的是 11 个 9,阿里云是 10 个 9,dropbox 是 11 个 9。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
  • 解释
  • 总结

1. 数据备份和恢复案例:腾讯云客户“前沿数控”和语雀平台的数据恢复案例,强调了数据备份对避免数据丢失的重要性。 2. 数据可靠性的衡量方法:简便的事后评估方式和基于可靠性工程公式的全面评估,考虑硬件故障率和系统的平均恢复时间。 3. 影响数据可靠性的因素:副本数、故障率、恢复时间、故障类型。 4. 增加副本数的策略:直接增加副本、使用纠删码(Erasure Coding)、数据备份。 5. 降低故障率的方法:定期数据迁移、利用磁盘故障预测技术。 6. 数据可靠性建设的目标:增加副本数、降低故障率、提升恢复时间、减少故障次数。 7. 数据可靠性的关键参数:副本数、故障率、恢复时间、故障类型。 8. 不同云存储的数据可靠性:AWS的S3数据可靠性是11个9,百度云存储的可靠性是10个9,腾讯云的是11个9,阿里云是10个9,dropbox是11个9。 9. 数据可靠性的本质:保障数据的完整性、可用性、一致性和持久性。 10. 数据备份和恢复的重要性:一旦数据丢失会造成非常大的影响和故障。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《SRE 实践:服务可靠性案例课》
新⼈⾸单¥59
立即购买
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部
文章页面操作
MAC
windows
作用
esc
esc
退出沉浸式阅读
shift + f
f11
进入/退出沉浸式
command + ⬆️
home
滚动到页面顶部
command + ⬇️
end
滚动到页面底部
⬅️ (仅针对订阅)
⬅️ (仅针对订阅)
上一篇
➡️ (仅针对订阅)
➡️ (仅针对订阅)
下一篇
command + j
page up
向下滚动一屏
command + k
page down
向上滚动一屏
p
p
音频播放/暂停
j
j
向下滚动一点
k
k
向上滚动一点
空格
空格
向下滚动一屏
播放器操作
MAC
windows
作用
esc
esc
退出全屏
⬅️
⬅️
快退
➡️
➡️
快进
空格
空格
视频播放/暂停(视频全屏时生效)