大数据经典论文解读
徐文浩
bothub 创始人
13844 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 59 讲
大数据经典论文解读
15
15
1.0x
00:00/00:00
登录|注册

37 | 当数据遇上AI,Twitter的数据挖掘实战(一)

你好,我是徐文浩。
课程进行到这里,我们对于各类大数据系统的论文的解读,就已经结束了。不过,真的要把大数据系统运用到实践当中,我们仍然会遇到很多挫折。在 2010 年,我第一次开始使用 Hadoop。在读完了论文和教程,开始撰写 Java MapReduce 的代码之后,我的第一感觉是“大数据不过如此”。
不过,在逐步深入尝试利用数据做越来越多的事情之后,我们遇到了越来越多意料之外的问题。大部分困难的来源,往往并不是纯粹的技术问题。毕竟,那些问题都可以靠读代码、记日志、找个环境复现问题来解决。更多的挑战,来自于系统和系统之间的“鸿沟”,不同团队和角色之间的“鸿沟”
日志格式的含义、工程师和数据科学家之间的技能树的差异,乃至于不同数据报表之间的依赖关系,都会成为我们快速分析数据、产出结论的鸿沟。难以精确定义的业务目标,与实际需要精确定义才能变成代码的技术开发之间的鸿沟,更是挡在大部分数据科学家面前的一座大山。
那么,对于这样看似软性的问题,我们是不是只能靠“加强沟通”来解决呢?接下来,我们就一起来看看,Twitter 这家公司是怎么做的吧。今天,就请你和我一起来读一读《Scaling big data mining infrastructure: the twitter experience》这篇论文。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

Twitter的数据挖掘实战论文介绍了在大数据系统中遇到的挑战和解决方案。作者指出,大部分困难来自于系统和系统之间的“鸿沟”,以及不同团队和角色之间的“鸿沟”。在实际工作中,数据科学家需要花费大量时间在“定义问题”和“清理数据”上。而在大数据系统中,日志格式的不一致、字段名称的差异等问题会给数据分析带来困难。 为了解决这些问题,Twitter采用了技术手段来填补知识鸿沟、提升团队效率。他们引入了强Schema的格式Thrift和数据的元数据管理工具HCatalog,将隐性知识显性化,提升工作效率。通过Thrift和HCatalog,日志格式始终和代码保持一致,字段含义得以明确定义,而数据的来源和生成方式也得以清晰记录,避免重复劳动。 Twitter还单独启动了一个项目,将最常用的用户行为日志统一记录在客户端,以统一的格式记录。这些优化措施都体现了Twitter通过技术手段减少重复劳动,将隐性知识显性化,从而提升团队效率的策略。 总之,本文通过介绍Twitter在大数据系统中的实践经验,展示了如何通过技术手段解决数据挖掘中的“沟通问题”,并提升团队效率。这对于读者了解大数据系统中的挑战和解决方案,以及如何运用技术手段提升团队效率具有重要参考意义。 Twitter的解决方案简单直接,通过技术手段将需要交流的信息变成系统里固定的一部分,从而长治久安。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大数据经典论文解读》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(4)

  • 最新
  • 精选
  • 在路上
    徐老师好,当数据遇上AI,需要从源头来规范日志格式,用一种语言处理整个流程,这一切都是为了提升数据科学家的工作效率。这说明数据的价值来自于分析,以及所得出的结论。在阅读《Streaming System》时我以为流式处理是大数据未来的方向,但是我最近在读《数学之美》和《智能时代》,发现大数据的价值在于服务于AI,而AI的重点不在于实时性,而在于海量、完备性和相关性。实时处理是当今的热点,不过比起追逐潮流,更重要的是理解数据,才构建高效的大数据环境,让数据发挥价值。
    2022-01-19
    2
  • Geek_88604f
    看来大数据需要和数据仓库建模理论结合
    2022-05-15
  • piboye
    clickhouse 这些sql 系统的 udf 可以用python 来实现机器学习吗?
    2022-01-20
  • 那时刻
    良好管理的元数据,会大大提升数据科学家们的工作团队效率。这个深有体会,我们之前数据字典不规范,导致部门之间的信息不均衡,后来通过统一数据字典以及可视化的方式,来统一信息的一致性
    2022-01-19
收起评论
显示
设置
留言
4
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部