虎牙直播的数据中台建设经验(上)
极客时间编辑部
讲述:初明明大小:4.93M时长:05:23
你好,欢迎收听极客视点。
近几年,“中台”概念很火,尤其是数据中台,它成为企业发挥数据价值的重要支柱。虎牙通过数据中台的建设不仅解决了以前面临的数据问题,而且构建了自己的数据中台能力,带来不错的收益。
最近,InfoQ 记者采访了虎牙数据技术部高级经理谭安林,向他了解到了虎牙的中台化建设历程和经验。
虎牙数据中台建设的背景和诉求
虎牙公司旗下既有国内游戏直播平台虎牙直播,也有风靡东南亚和南美的 Nimo TV。同一场景,不同角色人员都有一定程度的数据需求,因工作方向的着力点不同,故对数据的信息量、聚合度有一定差异。虎牙公司是有专门的底层平台支撑团队,底层能力包括但不限于上报 SDK、接入通道、以及大数据计算平台等。当不同人员各自规划一些数据需求,通过底层平台去实现数据采集、清洗、计算这样的工作,这就会导致两大问题:
同一个场景出现多源头数据,产生源头一致性问题以及资源浪费问题;
同一份源头数据被不同逻辑处理解读导致出现结果一致性问题,从而引起数据信任危机。
此外,在业务发展过程中,有些数据需求是现有数据无法满足的,存在多个技术团队有相同需求,而彼此之间因为所属不同部门、工作职责不同,其信息分析、数据共享的机制欠缺,所以多个团队去获取同一份数据,导致工作重叠和成本浪费。
谭安林提到,在新业务起步阶段,“数据是欠缺的”。因此,如何在新业务起步阶段,快速拥有两个能力变得尤为重要:
能力一,基础数据决策能力,以数据驱动业务的发展,而不是完全靠运营同学凭借人工经验;
能力二,基础数据采集分析能力,即如何让新业务采集数据更快、更准地达成,让运营报表可尽早落地,经营分析可尽早切入。
谭安林表示,前者是一个数据跨域应用的问题,后者是一个数据体系快速搭建的问题。针对这些问题,数据中台就是当前的解法。目标是囊括内部业务数据以及外部可用数据集、输出具备一致性、有质量、易理解的数据内容体系,达成数据共享。降低工作重叠、规避成本浪费效应,进而助推数据决策在虎牙业务上更深度、更广度的应用。
虎牙的业务场景特点以及相应的解决方案
虎牙的业务场景涉及直播多个方面,存在业务多样性、地域多样性的特色。针对不同业务场景,大致可以分为两部分:结构化数据需求和非结构化数据需求。
特点 1:结构化数据需求
经营分析、内容推荐、广告推荐等需求场景,它们被归为结构化数据需求,其涉及多个产品、每个产品多个端,同时也涉及到客户端、服务端、数据库同步等多个纵深数据采集接入。
解决方案
怎样解决对结构化数据的需求?谭安林表示,面对纷杂的数据接入点,以及多样的数据需求,虎牙在底层接入通道、大数据计算平台的基础上,构建了中台相关产品,包括面向采集的数据接入管理平台,面向应用的数据地图和 WebIDE 探索工具。
以产品化工具的形式,切入到数据从产生到应用链路,驱动业务产品、研发、测试参与数据接入环节,并以数据地图的形式开放,让数据技术人员能够易检索、易理解目标数据,在底层数据资源的基础上通过 WebIDE 进行研究应用。
特点 2:非结构化数据需求
虎牙还在 AI 领域发力,不仅有 AI 美颜、AI 风控,而且也在数字人方向进行研究应用。相比经营分析等场景,AI 场景的数据需求大为不同。这也是结构化数据场景、非结构化数据场景本质的不同,一些传统场景强依赖于结构化的行为数据等,但是数字人这类创新内容生产领域等强依赖于非结构化的图片音频等数据。
谭安林指出,随着业务和技术的深入,例如推荐等一些看似经典的场景,也越来越需要非结构化数据结构化后提供更丰富的信息以提升性能。因此,非结构化数据能力的补齐,也是数据中台的一大特点。
解决方案
为此,在非结构化数据方面,他们不仅在数据采集方面覆盖相关环节,而且着重针对非结构化数据进行结构化信息的融合,形成非结构化数据的业务融合层,并基于内外部的 AI 能力进行标注,实现 AI 元数据。
在产品化工具方面,则提供基于结构化标签筛选非结构化数据的能力,这对 AI 方向的数据研发起到了显著加速的作用。
以上是虎牙数据中台建设的背景和业务场景特点及解决方案,下文将分享虎牙数据中台的架构,以及建设中的挑战、应对方案,欢迎持续关注。
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
- 深入了解
- 翻译
- 解释
- 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
请先领取课程
免费领取
© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。
登录 后留言
精选留言
由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论