极客视点
极客时间编辑部
极客时间编辑部
113245 人已学习
免费领取
课程目录
已完结/共 3766 讲
2020年09月 (90讲)
时长 05:33
2020年08月 (93讲)
2020年07月 (93讲)
时长 05:51
2020年06月 (90讲)
2020年05月 (93讲)
2020年04月 (90讲)
2020年03月 (92讲)
时长 04:14
2020年02月 (87讲)
2020年01月 (91讲)
时长 00:00
2019年12月 (93讲)
2019年11月 (89讲)
2019年10月 (92讲)
2019年09月 (90讲)
时长 00:00
2019年08月 (91讲)
2019年07月 (92讲)
时长 03:45
2019年06月 (90讲)
2019年05月 (99讲)
2019年04月 (114讲)
2019年03月 (122讲)
2019年02月 (102讲)
2019年01月 (104讲)
2018年12月 (98讲)
2018年11月 (105讲)
时长 01:23
2018年10月 (123讲)
时长 02:06
2018年09月 (119讲)
2018年08月 (123讲)
2018年07月 (124讲)
2018年06月 (119讲)
时长 02:11
2018年05月 (124讲)
时长 03:16
2018年04月 (120讲)
2018年03月 (124讲)
2018年02月 (112讲)
2018年01月 (124讲)
时长 02:30
时长 02:34
2017年12月 (124讲)
时长 03:09
2017年11月 (120讲)
2017年10月 (86讲)
时长 03:18
时长 03:31
时长 04:25
极客视点
15
15
1.0x
00:00/05:53
登录|注册

虎牙直播的数据中台建设经验(下)

讲述:丁婵大小:8.07M时长:05:53
你好,欢迎收听极客视点。
近日,InfoQ 记者采访了虎牙数据技术部高级经理谭安林,了解了虎牙建设中台的经验,供你参考。在上一篇文章中分析了虎牙数据中台建设的诉求及其业务场景特点,本文继续介绍虎牙数据中台架构、遇到的挑战和解决方案,具体如下。

虎牙数据中台的架构

据悉,虎牙的数据中台是在大数据计算存储平台 Hadoop 以及云上对象存储的基础上构建,划分为 I、P、S 三层结构。
I 层侧重于数据资源层建设,包括结构化和非结构化数据,由数据接入管理平台、数据目录管理系统、数据地图产品、数据探索 WebIDE、网盘共享工具等部分组成,围绕数据接入、非结构化与结构化融合、数据治理和底层数据开放等核心点。
P 层侧重于数据资产层建设,包括主题式数据服务、跨域数据标签,由数据交换消费系统、自助式 API 系统等组成,围绕跨域能力、系统服务化等核心点。
S 层侧重于具象数据产品应用,面向产品、运营或技术人员直接提供数据报表、分析结论,包括海思报表服务、自助提数服务、数据 CUBE 设计、自助分析系统等。
层次的划分,是便于各层可以聚焦打磨能力,从而形成整体的数据中台竞争力。每一层的建设,围绕自身目标和核心点,形成闭环和开放的迭代机制。I 层厚在数据资源整合,P 层宽在开放能力多样,S 层快在场景敏捷应用。

虎牙数据中台建设面临的挑战

虎牙建设数据中台主要面临两大挑战:
一是结构化方面纷杂的接入源以及多样化的数据需求情况下如何形成通用化的中台开放能力;
二是非结构化情况下如何构建通用数据资源并便于使用。
而最大的难点是,在数据中台建设历程中,团队需要去思考数据中台的工作边界,中台客户能做什么,不能做什么,核心要去做哪些。
谭安林表示,有一个原则是“中台客户能做的,少去做,甚至不要去做。”
结构化数据仓库方面,从埋点设计、研发测试、接入清洗、仓库建模、数据应用链路 5 个环节来说,数据中台团队的核心工作是在接入清洗、仓库建模两个环节。这两个环节是承接接入源,构建通用的数据仓库层,并提供仓库层数据的开放,属于不得不去做的事情,也是持续投入的重要环节。
埋点设计和研发测试两个环节的主要参与方不是数据中台团队,而是由产品 & 数据分析师根据产品功能规划、数据分析需求等进行设计埋点明细,研发测试环节是业务研发在埋点设计基础上进行代码开发、业务测试进行验收上线核准。在这两个环节中,数据中台的价值是辅助各角色更好地完成相应环节的工作,而不是替代他们完成相关工作。故而数据中台团队制定了公司级的上报协同管理规范,并在底层接入通道基础上研发了数据接入管理平台,用于规范化这两个环节的过程与产出。
而在数据应用环节,因应用场景多样性、差异性,存在较多独立数据应用团队,比如经营分析、商业分析、推荐算法团队、AB 测试、AI 图形等团队。数据中台团队在这个环境,同样是以打辅助的角色切入,而不是替代的方式。
谭安林说,和这些团队深入交流后发现,主要的问题就是三点:找数据、辨数据、用数据。
虽然业界数据目录是一个办法,但其主要侧重于技术型元数据如存储路径、存储大小、表 schema 等信息,要满足中台客户自助式检索数据,这还不够。虎牙的做法是通过接入管理平台辐射全公司,形成了完整的接入源覆盖,通过程序化以及人工标注方式,构建了面向业务理解的业务元数据信息,比如业务划分、过程定义、事件上报时机、值逻辑性说明等,再辅以数据地图产品化手段提供“找”的能力。
除了技术元数据 + 业务元数据信息的供给,中台的数据治理团队针对开放数据进行了质量分析评估和监控,在数据地图上呈现质量信息,从表、分区,乃至字段都有呈现,比如在字段上,会对值域范围、值分布等进行评估,以可视化的方式呈现给中台客户。
在底层 Hive/Presto 的能力基础上,研发了与数据地图打通的 WebIDE 探索工具,并针对数据交换场景研发了通用调度工具。非结构化数仓方面也是类似,切入 AI 团队数据准备、效果验证环节中,提供数据资源以及元数据信息,并实现检索性的产品化服务。
以上就是虎牙直播建设数据中台的经验,你也可以点击原文链接了解完整采访内容。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结
该免费文章来自《极客视点》,如需阅读全部文章,
请先领取课程
免费领取
登录 后留言

精选留言

由作者筛选后的优质留言将会公开显示,欢迎踊跃留言。
收起评论
显示
设置
留言
收藏
33
沉浸
阅读
分享
手机端
快捷键
回顶部