17 | 模块答疑：这么多技术，到底都能用在什么场景里？

李智慧



该思维导图由 AI 生成，仅供参考

你好，我是李智慧。
经过前面两个模块，我们学习了大数据最经典、最主流的一些技术和产品，今天我们再回过头来梳理一下这些技术和产品。
从上面这张图来看大数据技术的分类，我们可以分为存储、计算、资源管理三大类。
最基本的存储技术是 HDFS。比如在企业应用中，会把通过各种渠道得到的数据，比如关系数据库的数据、日志数据、应用程序埋点采集的数据、爬虫从外部获取的数据，统统存储到 HDFS 上，供后续的统一使用。
HBase 作为 NoSQL 类非关系数据库的代表性产品，从分类上可以划分到存储类别，它的底层存储也用到了 HDFS。HBase 的主要用途是在某些场景下，代替 MySQL 之类的关系数据库的数据存储访问，利用自己可伸缩的特性，存储比 MySQL 多得多的数据量。比如滴滴的司机每隔几秒就会将当前的 GPS 数据上传，而滴滴上的司机数量号称有上千万，每天会产生数百亿的 GPS 数据，滴滴选择将这样海量的数据存储在 HBase 中，当订单行程结束的时候，会从 HBase 读取订单行程期间的 GPS 轨迹数据，计算路程和车费。
大数据计算框架最早是 MapReduce，目前看来，用的最多的是 Spark。但从应用角度讲，我们直接编写 MapReduce 或者 Spark 程序的机会并不多，通常我们会用 Hive 或者 Spark SQL 这样的大数据仓库工具进行大数据分析和计算。

公开

同步至部落

取消

完成

0/2000

荧光笔

直线

曲线

笔记

复制

AI

深入了解
翻译
英语
中文简体
中文繁体
法语
德语
日语
韩语
俄语
西班牙语
阿拉伯语
解释
总结

本文介绍了大数据技术的应用场景及相关产品。首先对大数据技术进行了分类，包括存储、计算和资源管理三大类。在存储方面，介绍了HDFS和HBase的应用，用于存储各种数据，例如日志数据、爬虫数据等。在计算方面，涵盖了MapReduce、Spark、Hive等技术用于离线大数据计算，以及Storm、Spark Streaming、Flink等技术用于实时数据计算。此外，还介绍了Yarn作为大数据集群资源管理框架的作用。作者还分享了自己的人生观和对技术书籍的影响，强调了努力拼搏和锐意进取的重要性。通过具体的应用场景和个人经历，展示了大数据技术的多样性和广泛应用，为读者提供了全面的了解和启发。

仅可试看部分内容，如需阅读全部内容，请付费购买文章所属专栏
《从 0 开始学大数据》，新⼈⾸单¥68

立即购买

登录后留言

全部留言(35)

最新
精选

钱
😅老师所言感同身受，我也是不入流的学校，但在我们学校我应该算是非常刻苦的学生，学的是计算机及应用，软硬件都有学，不过当时并认识不到这些基础理论的重要性，毕业时都没信心从事编程工作，工作后发现确实如此，工作中使用的技术，那必须一个个重新学。再后来就发现基础没打好，很容易到瓶颈期，英语一样，要么是台阶要么是拦路虎，工作两三年时，都觉得自己不适合编程，不过从农村出来没背景也没有其他更多更好的选择，赶上了好时代，就算以后可能还会踟蹰，现在也必须拼命学习，因为，每次回老家都能深深的体会到和父辈们吃的苦比起来，学习这件事简单的不得了。付出时间和精力，带上大脑和心灵，其实就是在旅行，在知识的海洋里，在多线程的工厂里，在大数据的森林里，在分布式的迷宫里，在io的管道里…
作者回复: 加油
2019-09-28

14
2K4
老师，一直有个问题很困惑，我们是装备制造行业，一台设备的参数有几千个，1秒采集一次数据，持续采集，成百上千台设备，一直想不清楚用HDFS还是HBase来做存储好些。
作者回复: 如果只是存储，那么HDFS和HBase都可以。关键是看你存储以后做什么用，如果是做离线的数据统计，那么就用HDFS；如果要即时查找，那么就用HBase。
2019-09-22
3
10
佳伦
既然这些大数据系统都是用来做离线数据分析，并且都是基于sql的关系型分析，那直接使用类似greenplum这样的分布式数据库不是更好么。我觉得分布式数据库有以下优势： 1. 对sql支持更好更标准，包括高级sql语句 2. 查询优化器更高效，查询优化器是数据库最重要也是最复杂的部分，在这方面其他系统都望尘莫及 3. 数据分布更有规律，有利于做join。以hadoop为例，数据分布在hdfs上没有任何规律，所以shuffle的过程就会很慢。而分布式数据库可以指定分布键，所以基于分布键的连接操作可以减少数据在节点间的移动，大大提高性能。
作者回复: GP能够支撑的数据量和集群规模要远小于Hadoop。大数据就是解决“大”数据问题的。而且大数据问题也并不“都”是SQL。
2020-06-22
2
3
走小調的凡世林
请教下老师，我们有个需求：根据各种自定义规则（比如分辨率、大小等）计算海量资源的分数（资源可以是图片、视频、音频）。总分100，图片分辨率太小或视频太大都要扣分，最后算出一个资源总分，这种需求可以用spark实现吗？主要考虑算分过程可能比较耗时，且资源数量较多。如果可以的话如何实现呢？老师是否可以提供下思路，感谢！
作者回复: 听起来，在你们这个需求场景中，每张图片的分数计算是独立的，感觉自己开发一个分布式程序就可以搞定。这样的场景也可以用Spark，不过因为没有关联计算，计算复杂度比较低，虽然数据量大，但是每张图片都是独立的，其实不复杂，用不用Spark都可以。
2019-12-01
2
3
Andrew陈海越
日拱一卒，不期速成
作者回复: 加油
2023-08-24归属地：重庆


贺勃
第一份工作顺风顺水，公司氛围也好，竟然在第一年做出了很多有创造性的东西，后来因为爱情换了工作，换了城市，去了所谓的大厂，被嫡系、KPI......所笼罩，好多时候感觉没有了之前的信心和灵气。所以：不再纠结自己是不是足够的优秀，能够成就什么样的事业。我只要每天都有一点点进步，明白一点点道理，生活就是值得的。
作者回复: 赞
2023-06-23归属地：浙江


Geek_beace6
我怎么从大数据库平台的取出来,在前端进行展示呢
作者回复: 模块4
2020-03-25


足迹
老师，现在的大数据技术大多都基于HDFS的存储，有没有哪种技术可以取代HDFS的？比如有人说KUDU是第一个动了HDFS奶酪的，你怎么看？
作者回复: 还有alluxio，也就是tachyon，从spark分离出来的内存存储，挑战者会不断出现，但是代替hdfs的路肯定会很漫长
2018-12-09
2

itzzy
文中老师提到是工作一段时间读研的，我自己也有读研的想法，从现在开始准备，也要1-2年才能考的上，读完研出来33，34了，担心没公司要，互联网还是看重年龄的，特别迷茫，希望老师给些建议，感谢！
2018-12-06
7
37
老男孩
看到这篇文章，我想起了一首歌《you raise me up》。因为我的背景过往不入流。想想周边工作的同事大多都是好学校毕业的，或者学历很高，感觉到很自卑。就怕别人问我是哪个学校毕业的😑，总是纠结于过往，高中三年为什么不好好读书？有时候想放弃，算了吧我这样的不适合混程序员这行业，不如去做一个歌手。2014年几乎半年在家里待着，不想上班也找不到合适的工作。直到看到《大型网站技术架构》那本书，我犹豫了片刻，因为我担心买了书不看放在家里当装饰品。最后我还是在当当上买了一本，没想到的是，我居然用了三个晚上把这本书读完了！趁热打铁，我用书中的内容知识去找工作，把面试的人都说蒙了。两周后我从新开始了工作。刚开始我对系统的理解只停留在模块组件功能实现，所谓的架构也只是逻辑分层而已。对于大型网站是个什么东西完全没有概念，对了这本书，至少我可以装逼了🤔。所以看到智慧老师的这个专栏，我片刻的犹豫都没有。因为我很怀念当年读完《大型网站技术架构》那本书以后，那种装逼的感觉。😎
2018-12-08
2
28

收起评论