赵成的运维体系管理课
赵成
蘑菇街平台技术总监
立即订阅
5558 人已学习
课程目录
已完结 48 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 带给你不一样的运维思考
免费
应用运维体系建设 (11讲)
01 | 为什么Netflix没有运维岗位?
02 | 微服务架构时代,运维体系建设为什么要以“应用”为核心?
03 | 标准化体系建设(上):如何建立应用标准化体系和模型?
04 | 标准化体系建设(下):如何建立基础架构标准化及服务化体系?
05 | 如何从生命周期的视角看待应用运维体系建设?
06 | 聊聊CMDB的前世今生
07 | 有了CMDB,为什么还需要应用配置管理?
08 | 如何在CMDB中落地应用的概念?
09 | 如何打造运维组织架构?
10 | 谷歌SRE运维模式解读
11 | 从谷歌CRE谈起,运维如何培养服务意识?
效率和稳定性最佳实践 (20讲)
12 | 持续交付知易行难,想做成这事你要理解这几个关键点
13 | 持续交付的第一关键点:配置管理
14 | 如何做好持续交付中的多环境配置管理?
15 | 开发和测试争抢环境?是时候进行多环境建设了
16 | 线上环境建设,要扛得住真刀真枪的考验
17 | 人多力量大vs.两个披萨原则,聊聊持续交付中的流水线模式
18 | 持续交付流水线软件构建难吗?有哪些关键问题?
19 | 持续交付中流水线构建完成后就大功告成了吗?别忘了质量保障
20 | 做持续交付概念重要还是场景重要?看“笨办法”如何找到最佳方案
21 | 极端业务场景下,我们应该如何做好稳定性保障?
22 | 稳定性实践:容量规划之业务场景分析
23 | 稳定性实践:容量规划之压测系统建设
24 | 稳定性实践:限流降级
25 | 稳定性实践:开关和预案
26 | 稳定性实践:全链路跟踪系统,技术运营能力的体现
27 | 故障管理:谈谈我对故障的理解
28 | 故障管理:故障定级和定责
29 | 故障管理:鼓励做事,而不是处罚错误
30 | 故障管理:故障应急和故障复盘
31 | 唇亡齿寒,运维与安全
云计算时代的运维实践 (6讲)
32 | 为什么蘑菇街会选择上云?是被动选择还是主动出击?
33 | 为什么混合云是未来云计算的主流形态?
34 | Spring Cloud:面向应用层的云架构解决方案
35 | 以绝对优势立足:从CDN和云存储来聊聊云生态的崛起
36 | 量体裁衣方得最优解:聊聊页面静态化架构和二级CDN建设
37 | 云计算时代,我们所说的弹性伸缩,弹的到底是什么?
个人成长 (5讲)
38 | 我是如何走上运维岗位的?
39 | 云计算和AI时代,运维应该如何做好转型?
40 | 运维需要懂产品和运营吗?
41 | 冷静下来想想,员工离职这事真能“防得住”吗?
42 | 树立个人品牌意识:从背景调查谈谈职业口碑的重要性
加餐 (4讲)
划重点:赵成的运维体系管理课精华(一)
划重点:赵成的运维体系管理课精华(二)
划重点:赵成的运维体系管理课精华(三)
新书 |《进化:运维技术变革与实践探索》
结束语 (1讲)
结束语 | 学习的过程,多些耐心和脚踏实地
赵成的运维体系管理课
登录|注册

32 | 为什么蘑菇街会选择上云?是被动选择还是主动出击?

赵成 2018-02-14
2018 年 1 月 22 日凌晨,我们美丽联合集团旗下的蘑菇街和美丽说的业务,整体搬迁到腾讯云,完成了从托管 IDC 模式,到腾讯云上混合云模式的转变。
云计算发展到今天,无论是在技术、服务层面,还是在商业层面都已经相对比较成熟。当前绝大多数初创公司在基础设施上的策略一定是公有云,已经极少再有自建或托管 IDC 的情况,所以不会存在是否上云这样的纠结。
但是对于蘑菇街这样体量的公司,搬迁上云,就必须要考虑得更全面:考虑基础设施的变化,业务的平稳过度,运维模式的转变,成本管控的调整,以及众多的细节问题。
最近,有很多同行对我们为什么做这个选择比较感兴趣。因为尽管混合云模式是当下的大趋势,但真正面临抉择时,又总会被各种具体的细节问题所困扰,犹豫不决。
今天,我从蘑菇街的视角,结合真实情况,聊一聊我们为什么会做出上云这个选择。

我们所面临的问题

1. 成本闲置问题
对于电商,大促已经常态化,除了“双 11”“双 12”以及“6·18”这样的例行大促,每个电商还会有自己的营销活动,比如我们就会有“3·21”春季促销,以及每个月不同的主题促销。这一点对于其它电商也是如此。
大促,从技术层面就意味着要在短时间内应对远远超过日常的峰值流量,可能是平时的十几倍,甚至是上百倍。为了支撑这么大的流量,就需要业务系统有足够的容量支持。
虽然我们会从技术和架构层面来提升容量,但是,无论如何优化,充足的硬件资源扩容是前提条件。
之前,我们在应对“双 11”这样的大促时,只能采购更多的设备。与此同时,我们还要在机柜成本以及资源上下架等纯人工方面进行投入,这往往要花费几千万元的成本。
但是,每次大促峰值一过,这些设备基本就处于极低的负载状态。这批资源要经过将近一年时间,随着业务量快速增长才能逐步消化掉,然后再进入到下一轮大促的采购周期中。
所以,这部分成本投入的收益是非常低的,基本处于闲置状态。
2. 基础设施维护问题
选择租用或托管 IDC 模式,随着业务量增长也会遇到一系列的问题。在我以往的实践操作中,我也遇到了以下几个问题,相信你也有过相似的困扰。
IDC 机房的选址。在中国互联网八大节点所在城市的 IDC 资源无疑是最优的,但是这些地方的优质资源却也是最紧张的。通常会被国内各大互联网公司或云计算公司提前占据,所以很难找到相对独立且成规模的机柜区域,而零散的机柜分布对管理和维护工作来说十分不便。
退而求其次,就只能选择二级或三级节点,但是这样一来在网络质量上就降了一个或多个等级。同时,因为没有 BGP 线路,或者线路质量不高,就需要多线接入,这对业务体验以及管理维护都会带来很大影响。
IDC 机房的扩展问题。一个机房内的机柜消耗完,想扩展就只能另找机房,但是属于同一运营商,或同一 ISP 服务商的同城机房资源是否充足,又是一个未知数。
不同机房间是否互联互通,以及是否增加跨地域的时延,对业务访问体验的影响很大。所以扩展性不足,会大大影响业务体验,甚至影响业务发展。
如果是通过第三方 ISP 接入的,特别是存在多个 ISP 服务商的时候,在互联互通时,服务商之间的沟通协调非常耗费精力,且不同机房以及多 ISP 之间的专线成本也会增加。当基础设施达到一定体量,这个问题会非常突出。
如果你也有过这方面的经历,相信你一定深有体会。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《赵成的运维体系管理课》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(3)

  • 大鱼11
    那选择腾讯云的考量又是什么呢?是否对比过其他云服务商的优劣?

    作者回复: 上云这种战略层面的决策,其决定因素不是技术,而是商业因素。细节比较敏感,我无法说的太详细,不过你可以体会下。

    2018-02-14
    9
  • katychen
    果然电商不会选阿里云啊😊

    作者回复: 不绝对

    2018-02-27
    4
  • 白开水
    美丽联合是如何混合部署的?日常用IDC,突发用云?

    作者回复: 下篇文章会介绍到

    2018-02-14
    2
收起评论
3
返回
顶部