作者回复: 很好的问题。设计时并没有对读者基础作任何假设,所以碰到任何技术概念,都会举例解释一下。可能需要些编程基础会学的快一点,专栏里一些示例代码是Python。如果有哪里觉得不清楚的后面可以再提出来,我们可以再调整。谢谢提问!
作者回复: 我觉得这个问题很好啊。我一部分同意大规模的互联网公司天生数据量大一点。另一方面,1. 对于公司来讲小型互联网公司甚至是传统企业,并不是不需要数据处理技能,而是他们还没有从数据中挖掘business insight的意识,没有数据驱动决策的意识,甚至没有收集数据的意识。举个我工作中见到的例子,比如有奶牛的农户几十年来根本不知道什么是数据,但是当我们帮他们细致的搜集牛的每天的数据,比如饮食,运动,作息,产奶,他们能从中找到最经济最优的饲料投放。2. 对于个人来讲一定要看长期的职业发展,公司会从小变大,职位会从低变高,当你能更多影响决策当你数据量变多,当你跳槽之后,数据的处理能力都是至关重要的。我们可以继续就这个问题探讨!
作者回复: 首先感谢你对这门课程的支持!你所提出的问题都非常好!
大数据多大算大,其实我觉得对数据量并没有一个硬性的上限或者下限的要求。一个有几Pb的数据集是大数据,那一个只有几条数据的数据集算吗?其实也算。我们看大数据背后的本质其实是希望我们不要纠结于数据量的多少,抽象出来看的话其实大数据平台希望能有处理无限大或者无限小数据集的能力的。
第二个问题你已经看到问题的本质了。没错,你所说的分治的思想其实就是MapReduce里面Map方法的一个抽象。
第三个问题我们可以这样看,在单台机器下,所有的数据处理操作其实都是由CPU完成的。而站在更高的角度上看,一个计算机的集群我们也可以把这个集群看作是“一台计算机”,而底下每台计算机都是是一个“CPU”。只不过在计算机集群这种分布式的环境下我们还要保证其它例如数据一致性这种单机环境下不需要特别考虑的东西。
你所说的一台不够就多加机器来处理这种操作是有专业名词的,叫作Horizontal Scaling。我会在第二章里面有实例讲解。
希望在后面的课程里还能看到你的提问留言,让我们一起学习进步!
作者回复: 你好啊珅剑同学!我觉得不要给自己定下一个标签,每个人都是慢慢学习成长起来的,包括我自己。我也希望你能通过我的课程,学习到数据处理上,架构设计上的思想精髓。大数据在技术平台上虽然日新月异,但其实很多背后的设计思想都是融会贯通的,当你掌握了本质,很多东西学习起来就得心应手了。希望这也对你日后的学习有所帮助,我们一起加油!
作者回复: 很好的问题,另一个同学也提到了类似问题。我们在内容设计时并没有对读者对知识背景作任何假设,所以即使一些基础的技术概念都会举例解释一下(如果你会了可能会觉得啰嗦)。有一些任何语言的编程经验会看起来快一点,因为有一些示例代码是Python的。但是设计类型的案例,我不觉得有特别的技术要求。希望你后面继续跟踪一下吧,如果有哪些讲的不清楚,或者解释的过多,后面可以调整内容。谢谢提问!
作者回复: 很多时候是因为那个公司傻逼,没有意识到程序员的价值在于经验,下次解决相似的问题知道哪些路可以哪些路不行。年轻干的动只是一小部分。
作者回复: 谢谢鼓励
作者回复: 相当于阿里P9吧
作者回复: 哈哈,确实是南方口音。是会兼顾各方面同学的需求,不过难度和宽度并不冲突。比如在第二篇里面,我们分析一个案例,会看数据量100的时候怎么解决,1亿又是怎么解决。我希望展现一个问题解决的立体全景。
作者回复: 的确是互为补充,专栏讲解的案例是有限的,但我希望在有限的案例里把思考方式讲清楚。另外相比文档,这里设计的案例会更实际一点。也欢迎你把自己专栏外的学习收获在这里分享。
作者回复: 是的海明同学,希望多看到你的留言
作者回复: 是,李同学,你理解的很对
作者回复: 谢谢你的肯定!让我们一起成长
作者回复: 谢谢认可。包括后面的文章也是,改了好多版,几乎重写了几次。
作者回复: 谢谢!希望后面的课程能继续看到你的留言!
作者回复: 很高兴看到你也是类似追问
作者回复: Mapreduce和hdfs都解决了很多问题。但是后面一篇会提到mapreduce本身的局限性。我看一个技术不会拘泥于“现在还有必要学吗”。任何技术产生都是有原因的,肯定能解决一些问题,肯定也有被更好技术取代的一天,但更重要的是明白技术怎么产生怎么设计的。
作者回复: Mark你好,应该是这周就会上正文。希望后面继续交流
作者回复: 很好的问题,另一个同学也提到了类似问题。我们在内容设计时并没有对读者对知识背景作任何假设,所以即使一些基础的技术概念都会举例解释一下(如果你会了可能会觉得啰嗦)。有一些任何语言的编程经验会看起来快一点,因为有一些示例代码是Python的。但是设计类型的案例,我不觉得有特别的技术要求。希望你后面继续跟踪一下吧,如果有哪些讲的不清楚,或者解释的过多,后面可以调整内容。谢谢提问!