大规模数据处理实战
蔡元楠
硅谷资深工程师
41608 人已学习
新⼈⾸单¥59
登录后,你可以任选4讲全文学习
课程目录
已完结/共 46 讲
大规模数据处理实战
15
15
1.0x
00:00/00:00
登录|注册

FAQ第一期 | 学习大规模数据处理需要什么基础?

hua168关于强一致性的误差范围的问题
3SKarl关于弱一致性和最终一致性的问题
mjl对Spark和Flink的比较
榣山樵客的总结
Freud的想法
Mark Lee的建议
CountingStars的思路
第五讲中的问题
第二讲中的问题
回答分析
问题精选
思考题:如果你在Facebook负责处理用户数据,你会选择什么样的分片函数来保证均匀分布的数据分片?
问题二:小型公司程序员学习大规模数据处理的意义?
问题一:学习大规模数据处理需要有什么基础?
文章总结

该思维导图由 AI 生成,仅供参考

你好,我是蔡元楠。
专栏上线已经一个月了,在这里我要先感谢大家的留言,留言的对答可以使我们互有补益。
这段时间,我发现留言中的很多问题都很有价值,希望你也可以看到。所以,我根据已发布的文章中的思考题,从留言中摘录了一些典型的、常见的问题做出答疑集锦,最终成为了今天你看到的“特别福利篇”。

开篇词”问题精选

问题一:学习大规模数据处理需要有什么基础?
这是一个很好的问题,虽然专栏已经更新了一个月,我还是要把这个开篇词中的提问放进来。就像你看到的那样,有好几位读者都问了类似的问题。
其实在最开始做专栏的内容设计时,我并没有对读者的知识背景作任何假设。
所以,即使是一些基础的技术概念,我也会举例解释一下(如果你已经会了可能会觉得啰嗦,这时候就需要你照顾一下其他同学了)。如果你有一些语言的编程经验(任何语言都可以)的话,看文章的理解速度会快一点。文章中会有一些示例代码,是用 Python 编写的。
但是在设计类型的案例中,我不觉得它对读者有特别的技术要求。
希望你在后面的阅读中提出建议,告诉我有哪些地方我讲得不够清楚,或者解释的过多,我会适当调整内容。
问题二:小型公司程序员学习大规模数据处理的意义?
这个问题问得很好。以客观条件来看,韩程的说法没有问题。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

学习大规模数据处理需要什么基础?本文是一期FAQ专栏,作者蔡元楠回答了读者提出的一些关于大规模数据处理的问题。他首先强调了对读者知识背景的不作任何假设,因此即使是基础的技术概念也会进行解释。他还讨论了小型公司程序员学习大规模数据处理的意义,指出数据处理技能对于公司和个人的长期职业发展都至关重要。此外,作者还分享了读者对于分片函数的回答和对于数据处理技术问题的改进设计。最后,他解释了弱一致性和最终一致性的区别,并分享了自己在面试Bloomberg时的面试经历。整体而言,本文涵盖了大规模数据处理的基础知识、技能的重要性以及一些技术问题的讨论,对于想要了解大规模数据处理的读者具有一定的参考价值。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《大规模数据处理实战》
新⼈⾸单¥59
立即购买
登录 后留言

全部留言(6)

  • 最新
  • 精选
  • 火星人
    老师,请以你专家级的视角,推荐5篇将来可能影响大数据发展趋势的论文吧!

    作者回复: 谢谢你的留言!可以参考我在第22讲里所讲到的论文呀。

    2019-05-20
    3
  • HomeyLiu
    数据均匀分片的核心是 哈希函数的设计。 如果你数据结构和算法不错的话,我觉得这是一个很简单的问题。 通过hashFunchiton(key)函数,输入key,输出hash值。 哈希函数设计的特点: 1》输入的key一样,得到的hash值肯定一样 2》输入的key不一样,得到的hash值可能一样,也就是hash冲突。 这个是评判一个哈希函数的好坏的重要标准。 冲突概率大的哈希函数肯定会引起严重的数据倾斜。极端的例子, 所有的key的hash值都一样,都跑到一个桶里面去了。 所以衡量一个哈希函数的好坏: 1》冲突要小。(例如用素数,还有模拟10进制,弄个26进制,abc可以编码为 0×26的0次方+1×26+2×26的2次方) 2》计算要快。常用位运算。 3》key哪怕很小的变动,输出的hash值差距越大越好。 有很多很经典的hash算法。 但是如果key一样hash值肯定一样。 所有key重复的数据很多的话,哈希函数是解决不了问题的。 必须对key进行组合,只要 组合后的key的重复的比率 不要 比 哈希冲突的概率 大太多就行。
    2019-05-20
    10
  • 朱同学
    刚入行时,师傅曾指导我,hash可以做随机,但是不能做key,因为不同平台hash算法可能是不一样的,类似需求推荐使用md5。
    2019-05-21
    4
  • sunsweet
    但是比特币交易平台就是实时的,那是怎么实现呢
    2019-05-23
    2
  • 时间是最真的答案
    感觉不是做大数据领域的同学,读这个专栏还是比较吃力的。专栏设计知识的很广,提升了大家的认识,但不懂大数据相关技术,没法实践,比如spark不懂如何部署,然后用自己所熟悉的需要去实践
    2019-05-22
    2
  • listen
    老师你好,我们是做学生学习情况的,现在要做实时,就是一节课的信息,是一个大json,1-10+M,其中嵌套多个json,由于各个子json的耦合性太强没办法分离,使用kafka的话一条数据太大了,数据是在OSS上,现在是先拉取到hdfs, 现在是发现3中方法, 1、java put到hdfs时,mq发送位置信息,sparkstreaming订阅,根据位置拉取 2、put 到hbase,sparkstreaming 扫描 3、使用sparkstreaming的textFileStream算子监控路径 三种方法没种都有很大的缺陷,老师能指点一下吗
    2019-05-21
    1
收起评论
显示
设置
留言
6
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部