• Joseph
    2019-04-24
    在实际应用SLA的时候,有两点不解:
    1. 在设计系统之初,大家拍脑袋来定义SLA。这个时期,SLA对应需要付出的成本还不明确,这样大家都会趋于订出很高标准。这种情况有好的解决办法吗?
    2. 虽然定义了SLA,但在架构设计的时候,如何评估架构是否能满足SLA呢?等到软件实现了再来测试,似乎有点太晚了……请教老师一般是如何处理这两个问题的呢?
     1
     33
  • 时间是最真的答案
    2019-04-24
    作为一个学习大数据的新手,希望作者能用几篇文章讲解大数据处理中使用的技术如何搭建,运行,优化的,以及各个技术如何结合使用,这样新手也能玩起来

    作者回复: 谢谢你的建议!我在第10和第11讲里有根据所讲的基础知识展开介绍两种实战中的经典架构,也配合了一些硅谷这边的应用实例作讲解,希望能对你有所帮助。

    
     18
  • Dany
    2019-04-27
    我觉得这一节超赞。基础概念很重要,很重要,很重要。
    实战这种事情,有的是时间去practice,而SLA这几个关键概念,会成为很多人理解的迷雾。
    当我发现我的lead,拉着一大堆自己也还没理解清楚SLA指标去拉KPI,扛大旗的时候,我才进一步,深刻体会到这一节内容的重要性^ ^
    
     14
  • sxpujs
    2019-04-24
    这几节干货有点少啊,也缺少一些实战和实例。

    作者回复: 这都是后面马上要用到的知识。不可能纯狠操猛干而没有知识支撑的。

    
     13
  • 明翼
    2019-04-24
    我们系统一般可用性,系统容量有做定义也多在招投标的文件中,至于准确性和延迟更没有严格测试,准确性这个我觉得不好测试吧,如果知道出错了,干嘛不修改那,老师业界硅谷大厂如何测试准确性那?
    
     7
  • _CountingStars
    2019-04-24
    这个SLA和一般服务监控指标 RED 原则有点像
    R rate 请求速率 qps
    E errors 错误数错误率
    D duration 延迟
    再加一个 服务可用性指标等级 就是今天讲的服务等级了
    
     6
  • zhihai.tu
    2019-04-24
    在银行做大数据平台的研发工作,也从可用性、准确性、系统容量、延迟四个指标来谈谈SLA,理解的不是很深,如有错误和不妥,请老师指导和更正:
    1、可用性:不管是hadoop还是mppdb,数据库本身提供了本地高可用,另外,采用了双园区主备设计,提供了园区自动切换服务,保证了园区之间的高可用。
    2、准确性:流数据处理平台,存在数据丢失的可能性。具体百分比应该是小于5%的。
    3、系统容量:采用限流的方式,通过参数设置,从而控制最大的并发数量。
    4、延迟:hadoop平台由于延迟较高,设计了异步处理请求及多线程技术,提高用户体验。
    
     4
  • 孙稚昊
    2019-04-25
    我们公司为了高并发QPS, 以前的python server 全部换成 Golang 了,Golang 做高并发是真的有优势
    
     3
  • hufox
    2019-04-24
    今天学到了什么SLA,请问老师,大数据平台中缓存的设计重要吗?一般如何设计?希望老师后面能讲讲新手如何搭建一个大数据平台,把整个流程运行起来,帮助更好的理解大数据处理流程!
    
     3
  • Tomcat
    2019-04-24
    SLA,即服务等级协议,规定了我们的工程的质量和目标,这使得我们的工作具有可衡量的尺度。
    以前我在中国移动做专线提供服务的时候,对这个颇为敏感,移动的专线产品,确实有许多不足之处,但是这让我构建了服务质量可以使用具体技术指标度量的理念。
    对于现在我正在做的产品,同样也有一些苛刻的要求,所以通过本文,我构建了服务质量度量体系~

    作者回复: 谢谢你的经验之谈!

    
     2
  • wmg
    2019-04-24
    老师我的理解SLA更适用于衡量oltp系统,和大数据处理系统有哪些联系呢?我的理解可能有误,老师指教
    
     2
  • 墨雨
    2019-12-17
    记笔记:
    定义SLA的四个维度
    可用性:4个9,1日8秒
    准确性:容错标准
    系统容量:QPS,RPS
    延迟:p95,p99
    展开
    
     1
  • vic5210jp
    2019-04-24
    有4个问题不太明白,希望可以交流一下。
    1.系统容量和延迟可以理解为吞吐量和响应速度么?
    2.不同的业务访问的数据量不同,因而延迟也有所不同,用p95或者是p99这样描述整个系统的延迟是否不太准确。
    3.除了介绍的SLA服务等级协议,系统的扩展性和复杂度等这些是否也应该被纳入一个系统的评价标准中。
    4.在高可用中,99.99%这种在系统上线前是如何测试得出的?一般我们是根据运行一段时间的情况来预估的,其实并不准确。
    
     1
  • leesper
    2019-07-17
    “当 p95 或者 p99 过高时,总会有 5% 或者 1%的用户抱怨产品的用户体验太差”,这个不可小视,因为很可能这1%或者5%用户就是很资深的用户,比如他/她在这个平台上买过很多东西所以响应慢,这个一定要做优化
    
    
  • Aven
    2019-06-27
    老师,听了您的课,感觉自己对SLA中的可用性的理解还不是很透彻,目前我正在搭建维护一套etcd集群,通过这节所讲的知识,对照评估了下集群的正确性,容量和延迟等方面特性,但是唯独可用性不知道如何评估,可用性是不是说出现机房网络问题或者宕机的时候,恢复集群的可用性需要多久?还望老师深入解析下
    
    
  • 倪必荣
    2019-06-13
    文中主要谈及3种一致性模型,强一致必须同步后才能访问,弱一致按时间发生同步与访问操作,可以同步与访问穿插,而最终一致是特别的弱一致,可以理解为用弱一致的方式达到强一致的效果,应该就是提高自动访问的频次。主要区别有2:

    0.同步与访问是否可同时进行
    1.是否自动提高访问频次
    
    
  • 滨 风暴
    2019-05-22
    我的理解是为了提高SLA,系统就要达到一定的冗余度,对于大数据来说存储和计算使用的资源就更多,所以定义SLA的时候,是不是还是要考虑一下成本,或者有没有提供高SLA的轻量化系统架构?

    作者回复: 的确如此

    
    
  • Blakemmmm
    2019-05-16
    请问老师可用性的数据一般是如何测出或算出的呢?内部测试时不可能测试那么长时间,而短时间的测试又无法反应随着运行时间增长导致的系统更容易出问题的概率。

    作者回复: 谢谢你的提问!可用性数据一般都需要系统运行一段时间的,无论是内测也好,还是其他方式也好。如果用户量没有这么大的话,可能需要自己写Prober去模拟一些常用操作去做测试。

    
    
  • 王众
    2019-05-05
    回复里看到老师“纯狠操猛干”的用语,是在和这个斯文的头像不配哈,挺适合我的头像。感谢老师对很多留言的耐烦解答与鼓励。

    作者回复: 谢谢你的支持!希望你能从专栏里学习到知识!

    
    
  • 程序设计的艺术
    2019-04-25
    你好,老师,目前的大数据处理架构该是什么样子呢?我这边有每天40多万行数据形成数据仓库,离线匹配行记录,使用什么方法可以快速处理?谢谢

    作者回复: 可能可以参考下10介绍的lambda架构

    
    
我们在线,来聊聊吧