从0开始学大数据
李智慧
同程艺龙交通首席架构师,前Intel大数据架构师,《大型网站技术架构》作者
立即订阅
14333 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 为什么说每个软件工程师都应该懂大数据技术?
免费
预习模块 (3讲)
预习 01 | 大数据技术发展史:大数据的前世今生
预习 02 | 大数据应用发展史:从搜索引擎到人工智能
预习 03 | 大数据应用领域:数据驱动一切
模块一 Hadoop大数据原理与架构 (7讲)
04 | 移动计算比移动数据更划算
05 | 从RAID看垂直伸缩到水平伸缩的演化
06 | 新技术层出不穷,HDFS依然是存储的王者
07 | 为什么说MapReduce既是编程模型又是计算框架?
08 | MapReduce如何让数据完成一次旅行?
09 | 为什么我们管Yarn叫作资源调度框架?
10 | 模块答疑:我们能从Hadoop学到什么?
模块二 大数据生态体系主要产品原理与架构 (7讲)
11 | Hive是如何让MapReduce实现SQL操作的?
12 | 我们并没有觉得MapReduce速度慢,直到Spark出现
13 | 同样的本质,为何Spark可以更高效?
14 | BigTable的开源实现:HBase
15 | 流式计算的代表:Storm、Flink、Spark Streaming
16 | ZooKeeper是如何保证数据一致性的?
17 | 模块答疑:这么多技术,到底都能用在什么场景里?
模块三 大数据开发实践 (8讲)
18 | 如何自己开发一个大数据SQL引擎?
19 | Spark的性能优化案例分析(上)
20 | Spark的性能优化案例分析(下)
21 | 从阿里内部产品看海量数据处理系统的设计(上):Doris的立项
22 | 从阿里内部产品看海量数据处理系统的设计(下):架构与创新
23 | 大数据基准测试可以带来什么好处?
24 | 从大数据性能测试工具Dew看如何快速开发大数据系统
25 | 模块答疑:我能从大厂的大数据开发实践中学到什么?
模块四 大数据平台与系统集成 (6讲)
26 | 互联网产品 + 大数据产品 = 大数据平台
27 | 大数据从哪里来?
28 | 知名大厂如何搭建大数据平台?
29 | 盘点可供中小企业参考的商业大数据平台
30 | 当大数据遇上物联网
31 | 模块答疑:为什么大数据平台至关重要?
模块五 大数据分析与运营 (5讲)
32 | 互联网运营数据指标与可视化监控
33 | 一个电商网站订单下降的数据分析案例
34 | A/B测试与灰度发布必知必会
35 | 如何利用大数据成为“增长黑客”?
36 | 模块答疑:为什么说数据驱动运营?
模块六 大数据算法 (6讲)
37 | 如何对数据进行分类和预测?
38 | 如何发掘数据之间的关系?
39 | 如何预测用户的喜好?
40 | 机器学习的数学原理是什么?
41 | 从感知机到神经网络算法
42 | 模块答疑:软件工程师如何进入人工智能领域?
智慧写给你的寄语 (1讲)
所有的不确定都是机会——智慧写给你的新年寄语
结束语 (2讲)
结束语 | 未来的你,有无限可能
第2季回归丨大数据之后,让我们回归后端
从0开始学大数据
登录|注册

34 | A/B测试与灰度发布必知必会

李智慧 2019-01-15
在网站和 App 的产品设计中,经常会遇到关于哪种产品设计方案更优的思考和讨论:按钮大一点好还是小一点好;页面复杂一点好还是简单一点好;这种蓝色好还是另一种蓝色好;新的推荐算法是不是真的效果好…这种讨论会出现在运营人员和产品经理之间,也会出现在产品经理和工程师之间,有时候甚至会出现在公司最高层,成为公司生死存亡的战略决策。
在 Facebook 的发展历史上,曾经多次试图对首页进行重大改版,甚至有时候是扎克伯格亲自发起的改版方案,但是最终所有的重大改版方案都被放弃了,多年来 Facebook 基本保持了一贯的首页布局和风格。
相对应的是,一直被认为抄袭 Facebook 的人人网在 Facebook 多次改版举棋不定的时候,毅然进行了重大的首页改版,摆脱了长期被诟病的抄袭指责。但是讽刺的是,事后回头再看,伴随着人人网改版的是用户的快速流失,并最后导致了人人网的没落,而 Facebook 的守旧却保证了 Facebook 的持续发展。
让 Facebook 放弃改版决定的,正是 Facebook 的 A/B 测试。Facebook 开发出新的首页布局版本后,并没有立即向所有用户发布,而是随机选择了向大约 1% 的用户发布,即这 1% 的用户看到的首页是新版首页,而其他用户看到的还是原来的首页。过一段时间后观察两部分用户的数据指标,看新版本的数据指标是否好于旧版本。
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《从0开始学大数据》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(10)

  • Linton
    为什么讲大数据的课程,会说到A/B测试去

    作者回复: 原文:A/B测试的目的依然是为了数据分析,因此通常被当作大数据平台的一部分。

    A/B测试是大数据分析和大数据平台的重要组成部分,但是关于A/B测试系统架构的资料非常少,如果说Hadoop、Spark的资料你可以从网上随便搜,那么完整的A/B测试系统架构的资料可能只有这个专栏才有了。
    多说两句,Google发表大数据论文距今15年了,Hadoop开源也十几年了,Spark出现也快10年了,如果我们今天学大数据还是眼里只有Hadoop、Spark,真的太OUT了。大数据生态体系包括Hadoop这样的大数据产品,还包括大数据平台、大数据分析、大数据机器学习,我的专栏是一个关于大数据技术体系的完整知识框架,希望能对你学习大数据起到作用。

    2019-01-16
    1
    12
  • 星辰
    除了AB实验,还可以提出AA实验,ABC实验的概念

    AA实验可以理解成:实验的配置相同,但划分到不同的用户群体

    ABC实验可以理解成: 一个实验的多组不同配置而非两组不同配置分别下发到不同群体



    作者回复: 是的,可以根据需求设计实验

    2019-01-15
    3
  • null
    请问老师,如果AB测试,涉及到调整了数据结构,或者业务逻辑较大改动,是否还有用呢?比如统计中需要全量数据,AB测试分成两个不同表来存。暂时考虑的是冗余存储比调整报表逻辑好,但是不知道是否会影响到AB测试的结果,毕竟有一部分是多做了近一倍的事,性能、用户感受这些指标结果可能又不准确。

    作者回复: A/B测试可以理解成在原来的打点基础上增加了实验ID和分组ID,数据存储和结构跟原来一样,SQL统计的时候根据ID分别统计,就得到各个实验分组的PV转化率这些指标。

    2019-01-16
    2
  • 星辰
    看带着过了一遍,我现在觉得AB实验还是很有意思的。

    用户请求AB实验成功后,AB后台会下发一组配置给该用户,用户的App会将这组配置作为参数加载进来,
    并在下一次请求前,不会改变APP的界面和效果,直到下一次这些AB实验的参数发生改变。
    2019-01-15
    1
  • 毛毛
    AB测试的逻辑偏复杂、需求也是花样百出,对于SDK,每做一个功能,逻辑设计就要将近一周,代码开发两天。像flurry友盟等单纯数据收集的SDK,很长时间都不会发版。

    请问老师,怎么把AB测试的SDK内部逻辑做的比较灵活,目的是适用业务需求变化,还不用频繁发版。
    2019-01-15
    1
  • 强哥
    AB test总体分为三大部分,实验方法,指标计算,效果评估,整体流程还要结合公司的业务,例如流量的划分,指标体系的建设等。APP端一般都是通过sdk进行埋点数据。然后进行etl。
    2019-01-15
    1
  • Geek_882db5
    这不就是中学学的控制变量法的一个应用吗,哈哈哈
    2019-09-21
  • hallo128
    AB测试的核心原理是很简单的,就是统计学中2个总体的比较问题。
    难度在于整个系统的自动化搭建,从如何抽样,如何安排试验,但最后数据的传递返回处理。最后才对已有数据进行统计检验。
    不过从这个系统涉及到的统计知识会有:试验设计(是否为正交在此阶段考虑),调查抽样,假设检验。
    现在的数据分析,既需要有扎实的理论基础,也需要有较强的编程实现能力。
    2019-01-29
  • 小老鼠
    AB测试用户喜不喜欢是如何获得的?

    作者回复: pv uv 留存各种数据指标下降了,就是不喜欢

    2019-01-22
  • hxppk
    abtest 流量分配环节,如何做到百分比流量分桶,同时也做到用某些event条件等划分流量,让流量高效利用?两种划分逻辑如何共存?

    作者回复: 流量划分需要尽量随机,保证实验结果客观,不应该有太多的划分方式。

    2019-01-18
收起评论
10
返回
顶部