开篇词 | 从这里开始,带你走上硅谷一线系统架构师之路
该思维导图由 AI 生成,仅供参考
为什么写大规模数据处理?
- 深入了解
- 翻译
- 解释
- 总结
这篇文章以“从这里开始,带你走上硅谷一线系统架构师之路”为题,由Google Brain的软件工程师蔡元楠撰写。作者分享了自己在学习和工作中的两个故事,强调了学习最新技术和深入思考技术应用的重要性。他提到了自己在学习C++时落后于时代的教材,以及在初创公司技术架构评审中遇到的技术领导力问题。文章中强调了学习最新技术和深入思考技术应用的重要性,以及在Google公司中灵活运用技术的重要性。作者表示将在专栏中介绍硅谷最前沿技术和真实案例,并剖析技术框架产生的原因和解决的问题,帮助读者更好地理解和应用技术。 文章内容涉及到作者个人的学习和工作经历,以及对技术应用和发展的思考。总体来说,文章强调了学习最新技术和深入思考技术应用的重要性,以及在Google公司中灵活运用技术的重要性。通过分享自身经历和思考,作者希望能帮助更多的技术同行更好地理解和应用技术。 在文章中,作者强调了大规模数据处理的重要性,并指出了人们对数据处理技术的误解,包括低估了数据处理的重要性、低估了数据处理工程师在组织架构上的重要性、低估了数据处理规模变大带来的复杂度,以及高估了上手数据处理的难度。作者表示将通过专栏介绍硅谷一线大厂的案例,解释MapReduce为什么不能应对最新的技术挑战,并引导读者设计数据处理框架,讲解必需的基础知识,并深入拆解Apache Spark和Apache Beam。最终,作者希望读者能够掌握硅谷一线系统架构师的水平,并培养技术远见,以应对未来的技术挑战。 总的来说,这篇文章强调了学习最新技术和深入思考技术应用的重要性,以及在Google公司中灵活运用技术的重要性,并介绍了大规模数据处理的重要性和学习路径。
2019-04-1546人觉得很赞给文章提建议
《大规模数据处理实战》,新⼈⾸单¥59
全部留言(119)
- 最新
- 精选
- 珅剑置顶我是一个蹉跎了多年的三流程序员,目前放弃了一切在脱产学习大数据,过程很辛苦,但我渴望成长,很幸运遇到了蔡老师,希望能跟随您的轨迹,通过这段时间的学习达到自己新的高度,to get my life back!
作者回复: 你好啊珅剑同学!我觉得不要给自己定下一个标签,每个人都是慢慢学习成长起来的,包括我自己。我也希望你能通过我的课程,学习到数据处理上,架构设计上的思想精髓。大数据在技术平台上虽然日新月异,但其实很多背后的设计思想都是融会贯通的,当你掌握了本质,很多东西学习起来就得心应手了。希望这也对你日后的学习有所帮助,我们一起加油!
2019-04-1710 - 钱置顶这个技术解决了哪些痛点? 别的技术为什么不能解决? 这个技术用怎样的方法解决问题? 采用这个技术真的是最好的方法吗? 如果不用这个技术,你会怎样独立解决这类问题? 做了太多的CRUD,越来越觉得自己没什么核心竞争力,好的问题解决思路都具有通用性,希望跟着牛人走上一程,随便聊聊涨涨见识也好。 大数据多大算大? 处理量大的思路,感觉主要就是分治的思想? 需要多台机器来扛,如果单台机器没有容量和性能局限是不是就不需要各种大数据的处理思想了? 我不是从事大数据工作的,只是好奇,之前面试时也遇到过类似处理大量数据存储的问题,存起来容易,一台机器容量不够,就两台,两台不行就继续加,不过怎么查询?怎么统计分析就费劲了? 希望,听到不一样的声音喝令人惊叹的文婷姐姐思路。
作者回复: 首先感谢你对这门课程的支持!你所提出的问题都非常好! 大数据多大算大,其实我觉得对数据量并没有一个硬性的上限或者下限的要求。一个有几Pb的数据集是大数据,那一个只有几条数据的数据集算吗?其实也算。我们看大数据背后的本质其实是希望我们不要纠结于数据量的多少,抽象出来看的话其实大数据平台希望能有处理无限大或者无限小数据集的能力的。 第二个问题你已经看到问题的本质了。没错,你所说的分治的思想其实就是MapReduce里面Map方法的一个抽象。 第三个问题我们可以这样看,在单台机器下,所有的数据处理操作其实都是由CPU完成的。而站在更高的角度上看,一个计算机的集群我们也可以把这个集群看作是“一台计算机”,而底下每台计算机都是是一个“CPU”。只不过在计算机集群这种分布式的环境下我们还要保证其它例如数据一致性这种单机环境下不需要特别考虑的东西。 你所说的一台不够就多加机器来处理这种操作是有专业名词的,叫作Horizontal Scaling。我会在第二章里面有实例讲解。 希望在后面的课程里还能看到你的提问留言,让我们一起学习进步!
2019-04-1615 - 暮光之城置顶老师你好,你上文提到的AI落地的基础是大规模的数据和高质量的标注,目前能满足的这个条件是否只有一些超大规模的一线互联网公司。那是否意味着大数据处理也只有在这些公司中才能发挥真正的价值,那对于在小型互联网公司工作的程序员,学习大数据处理的意义在哪里呢?
作者回复: 我觉得这个问题很好啊。我一部分同意大规模的互联网公司天生数据量大一点。另一方面,1. 对于公司来讲小型互联网公司甚至是传统企业,并不是不需要数据处理技能,而是他们还没有从数据中挖掘business insight的意识,没有数据驱动决策的意识,甚至没有收集数据的意识。举个我工作中见到的例子,比如有奶牛的农户几十年来根本不知道什么是数据,但是当我们帮他们细致的搜集牛的每天的数据,比如饮食,运动,作息,产奶,他们能从中找到最经济最优的饲料投放。2. 对于个人来讲一定要看长期的职业发展,公司会从小变大,职位会从低变高,当你能更多影响决策当你数据量变多,当你跳槽之后,数据的处理能力都是至关重要的。我们可以继续就这个问题探讨!
2019-04-1624 - 风之伤置顶学习这专栏需要什么基础知识
作者回复: 很好的问题。设计时并没有对读者基础作任何假设,所以碰到任何技术概念,都会举例解释一下。可能需要些编程基础会学的快一点,专栏里一些示例代码是Python。如果有哪里觉得不清楚的后面可以再提出来,我们可以再调整。谢谢提问!
2019-04-15232 - hua168置顶老师,学习这个需要什么知识为提前?
作者回复: 很好的问题,另一个同学也提到了类似问题。我们在内容设计时并没有对读者对知识背景作任何假设,所以即使一些基础的技术概念都会举例解释一下(如果你会了可能会觉得啰嗦)。有一些任何语言的编程经验会看起来快一点,因为有一些示例代码是Python的。但是设计类型的案例,我不觉得有特别的技术要求。希望你后面继续跟踪一下吧,如果有哪些讲的不清楚,或者解释的过多,后面可以调整内容。谢谢提问!
2019-04-156 - 大王叫我来巡山很多时候公司淘汰一个人的原因不是因为他年龄大了,而是他的技术没有随着年龄增长
作者回复: 很多时候是因为那个公司傻逼,没有意识到程序员的价值在于经验,下次解决相似的问题知道哪些路可以哪些路不行。年轻干的动只是一小部分。
2019-04-1649 - Sapph高效的数据处理和高质量的标注是数据分析的前提,在AI战场厮杀的不仅仅是复杂的算法,还要依托于背后的大数据处理能力。看了目录,内容很干货。 话说,这又是一个亲身上阵自己录音频的老师,作者本人读出来的文章是有灵魂的~
作者回复: 谢谢鼓励
2019-04-1521 - coder请问老师Google T6是什么概念?
作者回复: 相当于阿里P9吧
2019-04-15217 - 听水的湖又是一个Google大佬,大佬是南方人吧。带着耳机听的,专栏用作者本人的声音真是很良心了,更有代入感。不过感觉有点难度,希望文章内容有深度的同事能兼顾一下宽度……学渣倒地不起……
作者回复: 哈哈,确实是南方口音。是会兼顾各方面同学的需求,不过难度和宽度并不冲突。比如在第二篇里面,我们分析一个案例,会看数据量100的时候怎么解决,1亿又是怎么解决。我希望展现一个问题解决的立体全景。
2019-04-1512 - paradox灵魂追问需要通过阅读文档和源码,并加上自己实践和思考才能够回答。
作者回复: 的确是互为补充,专栏讲解的案例是有限的,但我希望在有限的案例里把思考方式讲清楚。另外相比文档,这里设计的案例会更实际一点。也欢迎你把自己专栏外的学习收获在这里分享。
2019-04-1511