13 | 云上大数据:云计算遇上大数据,为什么堪称天作之合?
该思维导图由 AI 生成,仅供参考
- 深入了解
- 翻译
- 解释
- 总结
云计算与大数据的结合被称为“天作之合”,因为云计算提供了存储、计算规模和弹性,而大数据业务需求需要大量存储和强大的计算能力。云计算成为了最适合运行大数据工作负载的平台。大数据是一系列处理海量数据的方法论和技术实现的总称,而云是一种资源和能力的载体,也是一种商业存在,可以运行大数据负载和应用的平台。云上大数据PaaS产品是云对大数据技术进行封装和产品化的成果。云上大数据服务不断跟进社区发展,包括MapReduce、Hive、HBase和Spark等技术,形成了一系列大数据服务的组合。其最大特点是简便易用,方便管理,降低了学习和应用大数据技术的门槛。通过实验,展示了在云上使用EMR服务运行Spark程序,统计小说《双城记》中的单词词频的过程,体现了云上大数据服务的易用性和便利性。 云上大数据服务的特点包括存储和计算的解耦,对象存储服务与大数据架构的深度集成,以及动态调整大数据集群规模的弹性。此外,云上大数据服务还提供增值服务,如性能监控和Jupyter Notebook,以及针对大数据框架的优化改进。另外,无服务器查询服务也是一种计算存储解耦的终极体现,适合偶发的数据分析需求。在大数据技术领域,分析型数据库也备受关注,MPP数据库和分布式并行查询处理降低了大数据技术的门槛,使得用户能够用熟悉的SQL方式来处理大数据。云上分析型数据库如AWS的Redshift和阿里云的AnalyticDB保留了MPP数据库的特点,并与云端生态结合紧密。总的来说,云上分析型数据库易用而性能强大,也能够存储和处理大规模的数据,成为了最热门的云上PaaS服务之一。
《深入浅出云计算》,新⼈⾸单¥29
全部留言(6)
- 最新
- 精选
- 何恺铎置顶[上讲问题参考回答] 1. 防止“删库跑路”的要点,一个在于备份,一个在于权限。很多同学都同时提到了这两点。备份方面要善用云数据库各种备份机制,包括自动的增量/全量备份、事务日志备份、可长期保存的数据库快照等。权限方面主要注意数据库本体和备份的权限分离,不要把所有钥匙交到一个人的手里。如果真的出现意外彻底删除,也要记得迅速联系云厂商后台支持,仍有找回数据的一线生机。 2. 分区当然仍有它的应用价值;对于某些NoSQL类云原生数据库,分区是必选机制,直接影响着存储层的sharding策略;而对于关系型云原生数据库,也大都支持经典的数据库分区操作,和底层分布式存储不但不冲突,还能够有助于减少数据扫描、提高查询性能。2020-04-0112
- 罗辑思维问题:现在在云上,如果使用远端的对象存储,是否和这个思想背道而驰了呢?背后是什么样的因素在推动这个转变呢? 个人思考:任何技术手段都是考虑性价平衡,如对读写延迟要求不高,低频,归档的数据可以放在远端。还有所谓远端可能是其他人的近端,可以通过BGP网络或者CDN加速的方式,提供用户就近访问,有效降低云服务器负载。 想到庄振运老师说过通过性能优化替公司省了几千万美刀,才明白技术是生产驱动力,省钱更是硬道理。
作者回复: 思考的角度不错哦,赞。
2020-04-026 - leslieHadoop没有研究过:不过分析型数据库是初次考虑去涉及。我们不防去提出另一个问题:mongodb为何要对sql做极好的支持?这个是从mongodb初始就有的。 redis和mongodb应当算是同类型的基于内存存储的数据库:为何一个对sql做了极好的支持一个没有?老师分享的图片中有指出阿里云的两种分析型数据库是基于PGSQL和MYSQL,它们背后其实是缺乏OLAP类型DB支持的。 谢谢分享,期待后续课程。
作者回复: 这里要修正一下你的说法,虽然官方的MySQL和PostgreSQL不支持列式存储,但阿里云ADB for MySQL/PostgreSQL都是有定制的列存储或行列混合存储引擎的,所以才称得上是“分析型数据库”。 支不支持SQL,以及优先级如何,更多取决于数据库的应用场景和数据结构特点。很多时候不是能不能的问题,是需不需要的问题。另外MongoDB和Redis的差别还是蛮大的。
2020-04-014 - 胖子MPP数据库因解决什么问题而发展过来的?
作者回复: 本质上MPP也是为了解决传统关系型数据库的性能和扩展性问题而诞生的,只是和Hadoop生态采用了不同的“大数据”思路和做法。
2020-04-151 - Sports云计算和大数据就是珠联璧合啊2020-04-014
- 易轻尘第一个问题个人感觉是因为目前网络越来越快了,所以query延迟变得能够接受了。另一个原因是基于成本和可用性的考虑,比起企业私有的hadoop集群,云计算服务能够以更便宜的价格提供更专业的服务。2021-07-28