你好,我是蔡元楠。
今天我要与你分享的主题是“Amazon 热销榜 Beam Pipeline 实战”。
两个月前,亚马逊(Amazon)宣布将关闭中国国内电商业务的消息你一定还记忆犹新。虽然亚马逊遗憾离场,但它依然是目前全球市值最高的电商公司。
作为美国最大的一家网络电子商务公司,亚马逊的总部位于华盛顿州的西雅图。类似于 BAT 在国内的地位,亚马逊也是北美互联网 FAANG 五大巨头之一,其他四个分别是 Facebook、Apple、Netflix 和 Google。
亚马逊的热销商品系统就如下图所示。
当我搜索“攀岩鞋”时,搜索结果的第三个被打上了“热销商品”的标签,这样能帮助消费者快速做出购买决策。
当我点击这个“Best Seller”的标签时,我可以浏览“攀岩鞋”这个商品分类中浏览销量最高的前 100 个商品。
这些贴心的功能都是由热销商品系统实现的。
这一讲我们就来看看在这样的热销商品系统中,怎样应用之前所学的 Beam 数据处理技术吧。今天,我们主要会解决一个热销商品系统数据处理架构中的这几个问题:
怎样用批处理计算基础的热销商品列表、热销商品的存储和 serving 设计?
怎样设计商品去重处理流水线和怎样根据商品在售状态过滤热销商品?