38 | 当数据遇上AI，Twitter的数据挖掘实战（二）

徐文浩

你好，我是徐文浩。
在上节课里，我们一起了解了 Twitter 整体搭建数据系统的经验。不过，那一篇论文的主要内容还是在方法论上，一旦我们想要把这个方法论利用到我们当下就在搭建的数据系统里，就有些无从下手的感觉。
不过，好在 Twitter 还发表了很多有着具体实战经验的论文。那么，今天我就请你一起来学习下《The Unified Logging Infrastructure for Data Analytics in Twitter》这篇论文。在这篇论文里，Twitter 一点儿都没有藏私，而是给出了大量具体的实践技巧，你完全可以用“抄作业”的方式，把里面的做法用到自己的系统里。事实上，在我之前搭建的大数据系统中，就从里面吸取了大量的经验。
希望在学习完这节课之后，你可以直接把所看到的具体实战方法用到实践中去。无论是对你现在已有的系统进行对照改进，还是在建设新系统的时候把 Twitter 的方法作为模版，都是一个不错的选择。
统一的用户行为日志和元数据管理上节课我们就说过，Twitter 为了减少碎片化的日志文件和日志格式，最终在内部启动了一个项目，统一从客户端的视角来记录用户行为日志。这个日志的格式，自然是通过 Thrift 的 Schema 来定义的。而有了这个日志之后，所有的工程师和数据分析师，都可以在一个共识下工作。大部分的数据分析工作，也不再需要大量的 Join 操作，先把数据在 Hadoop 上搬运一遍。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

Twitter在数据挖掘实战中分享了他们在统一用户行为日志和元数据管理方面的实践经验。他们通过Thrift的Schema定义了统一的用户行为日志格式，将用户行为拆分成6个层级的结构，称之为Click Events。这种层级化的结构使得工程师和数据科学家可以轻松定位和分析特定用户行为，而不需要进行大量的Join操作。此外，他们还通过反向统计出的事件层级树状图，做成了一个可展开的Web界面，使工程师和数据科学家可以直接搜索并记录字段值的含义，从而快速生成文档。Twitter的这些实践经验可以为其他公司在数据挖掘和管理方面提供借鉴，尤其是对于大数据系统的搭建和优化有着积极的指导意义。另外，Twitter采取了巧妙的方式来解决用户行为模式分析和debug问题。他们将用户行为映射成Unicode，简化成一条日志，使得漏斗分析和机器学习建模变得非常简单。同时，为日志文件生成索引，大幅减少了需要扫描的数据，使得在线上debug和特定案例的分析变得容易。这些实践为大数据系统的落地提供了宝贵经验，对于数据处理、用户行为分析和系统debug都有着积极的指导意义。通过这些实践，读者可以了解到Twitter在数据挖掘和管理方面的先进实践，以及如何利用统一的日志格式、用户行为映射和索引技术来提升数据处理效率和系统可靠性。这些经验对于正在搭建大数据体系的团队具有借鉴意义，也为实际应用大数据系统的工程师提供了一系列最佳实践。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《大数据经典论文解读》，新⼈⾸单¥59

立即购买

登录后留言

全部留言(3)

最新
精选

Geek_88604f
这种能力在底层数据格式里默认都支持了吧，像parquet、carbon
2022-05-22

1
CRT
是因为这样的索引不方便数据重新分配，代价太大？
2022-02-05


piboye
clickhouse 好像也是这样在block级别建立索引
2022-01-24



收起评论