大规模数据处理实战
蔡元楠
Google Brain资深工程师
立即订阅
8443 人已学习
课程目录
已完结 46 讲
0/4登录后,你可以任选4讲全文学习。
开篇词 (1讲)
开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路
免费
模块一 | 直通硅谷大规模数据处理技术 (3讲)
01 | 为什么MapReduce会被硅谷一线公司淘汰?
02 | MapReduce后谁主沉浮:怎样设计下一代数据处理技术?
03 | 大规模数据处理初体验:怎样实现大型电商热销榜?
模块二 | 实战学习大规模数据处理基本功 (8讲)
04 | 分布式系统(上):学会用服务等级协议SLA来评估你的系统
05 | 分布式系统(下):架构师不得不知的三大指标
06 | 如何区分批处理还是流处理?
07 | Workflow设计模式:让你在大规模数据世界中君临天下
08 | 发布/订阅模式:流处理架构中的瑞士军刀
09 | CAP定理:三选二,架构师必须学会的取舍
10 | Lambda架构:Twitter亿级实时数据分析架构背后的倚天剑
11 | Kappa架构:利用Kafka锻造的屠龙刀
模块三 | 抽丝剥茧剖析Apache Spark设计精髓 (10讲)
12 | 我们为什么需要Spark?
13 | 弹性分布式数据集:Spark大厦的地基(上)
14 | 弹性分布式数据集:Spark大厦的地基(下)
15 | Spark SQL:Spark数据查询的利器
16 | Spark Streaming:Spark的实时流计算API
17 | Structured Streaming:如何用DataFrame API进行实时数据分析?
18 | Word Count:从零开始运行你的第一个Spark应用
19 | 综合案例实战:处理加州房屋信息,构建线性回归模型
20 | 流处理案例实战:分析纽约市出租车载客信息
21 | 深入对比Spark与Flink:帮你系统设计两开花
模块四 | Apache Beam为何能一统江湖 (8讲)
22 | Apache Beam的前世今生
23 | 站在Google的肩膀上学习Beam编程模型
24 | PCollection:为什么Beam要如此抽象封装数据?
25 | Transform:Beam数据转换操作的抽象方法
26 | Pipeline:Beam如何抽象多步骤的数据流水线?
27 | Pipeline I/O: Beam数据中转的设计模式
28 | 如何设计创建好一个Beam Pipeline?
29 | 如何测试Beam Pipeline?
模块五 | 决战 Apache Beam 真实硅谷案例 (7讲)
30 | Apache Beam实战冲刺:Beam如何run everywhere?
31 | WordCount Beam Pipeline实战
32 | Beam Window:打通流处理的任督二脉
33 | 横看成岭侧成峰:再战Streaming WordCount
34 | Amazon热销榜Beam Pipeline实战
35 | Facebook游戏实时流处理Beam Pipeline实战(上)
36 | Facebook游戏实时流处理Beam Pipeline实战(下)
模块六 | 大规模数据处理的挑战与未来 (4讲)
37 | 5G时代,如何处理超大规模物联网数据
38 | 大规模数据处理在深度学习中如何应用?
39 | 从SQL到Streaming SQL:突破静态数据查询的次元
40 | 大规模数据处理未来之路
专栏加餐 | 特别福利 (4讲)
FAQ第一期 | 学习大规模数据处理需要什么基础?
加油站 | Practice makes perfect!
FAQ第二期 | Spark案例实战答疑
FAQ第三期 | Apache Beam基础答疑
结束语 (1讲)
结束语 | 世间所有的相遇,都是久别重逢
大规模数据处理实战
登录|注册

34 | Amazon热销榜Beam Pipeline实战

蔡元楠 2019-07-12
你好,我是蔡元楠。
今天我要与你分享的主题是“Amazon 热销榜 Beam Pipeline 实战”。
两个月前,亚马逊(Amazon)宣布将关闭中国国内电商业务的消息你一定还记忆犹新。虽然亚马逊遗憾离场,但它依然是目前全球市值最高的电商公司。
作为美国最大的一家网络电子商务公司,亚马逊的总部位于华盛顿州的西雅图。类似于 BAT 在国内的地位,亚马逊也是北美互联网 FAANG 五大巨头之一,其他四个分别是 Facebook、Apple、Netflix 和 Google。
亚马逊的热销商品系统就如下图所示。
当我搜索“攀岩鞋”时,搜索结果的第三个被打上了“热销商品”的标签,这样能帮助消费者快速做出购买决策。
当我点击这个“Best Seller”的标签时,我可以浏览“攀岩鞋”这个商品分类中浏览销量最高的前 100 个商品。
这些贴心的功能都是由热销商品系统实现的。
这一讲我们就来看看在这样的热销商品系统中,怎样应用之前所学的 Beam 数据处理技术吧。今天,我们主要会解决一个热销商品系统数据处理架构中的这几个问题:
怎样用批处理计算基础的热销商品列表、热销商品的存储和 serving 设计?
怎样设计每小时更新的热销榜单?
怎样设计商品去重处理流水线和怎样根据商品在售状态过滤热销商品?
怎样按不同的商品门类生成榜单?
取消
完成
0/1000字
划线
笔记
复制
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
该试读文章来自付费专栏《大规模数据处理实战》,如需阅读全部文章,
请订阅文章所属专栏。
立即订阅
登录 后留言

精选留言(6)

  • Ming
    本讲是这个课程中信息量最高的文章之一 👍👍👍

    不过我相信具体实现中的细节应该还有很多。不知道作者有没有机会分享一下常见的实现误区和pitfall?

    除此之外,不知道文章说的这些方案在并发的能力上如何?假如有adhoc+并发的大数据场景,常见的大数据方案似乎在成本上都很高。这算是个大数据上的固有(intrinsic)难题嚒?
    2019-07-14
    2
  • YZJ
    有人看明白为啥要用Distinct.withRepresentativeValueFn了么, 我理解就是个普通的转换,将productId转成producetUniqueId, 为什么要用Distinct呢?
    2019-07-13
    1
  • 楚天行
    老师你好,这里有两点疑问:
    (1)isSuccessfulSale 和 inStock,不能总是去交易系统实时去查的吧?这样开销会很大。
    (2)是否可以最后在处理这个状态?虽然是最后被合并后的值,这样只需要很少的调用次数就可以实现了效果
    2019-09-17
  • _yiunia##远
    “怎样设计每小时更新的热销榜单”
    滑动窗口一小时滚动一次,而数据流在一直拉取,这段时间内的数据都是存在内存里么?不会爆掉么?还是另外有聚合的逻辑
    2019-07-31
  • 李孟
    老师我想问下, PCollection<String>这个种懒加载出来的集合怎么转存成临时的list集合?
    2019-07-24
  • 本杰明
    总算追上进度了,mark下~整理点疑问继续追加过来~

    作者回复: 👍

    2019-07-17
收起评论
6
返回
顶部