深入浅出云计算
何恺铎
复星集团首席架构师
24360 人已学习
新⼈⾸单¥29
登录后,你可以任选4讲全文学习
课程目录
已完结/共 19 讲
结束语 (1讲)
深入浅出云计算
15
15
1.0x
00:00/00:00
登录|注册

13 | 云上大数据:云计算遇上大数据,为什么堪称天作之合?

Hive和Redshift
远端的对象存储
就近访问
Hadoop的黄金时代
按需启停
弹性
对象存储
思考题
数据管理和数据集成类服务
数据仓库和数据湖解决方案
云上的产品和服务
云计算落地大数据
存储和处理大规模数据
性能
Redshift
云上分析型数据库
分布式并行查询处理
MPP数据库
分析型数据库
无服务器查询服务
计算端
存储端
增值服务
方便管理
简便易用
云上大数据服务的特点
云上大数据的发展
云上大数据服务
封装和产品化
计算需求
存储需求
弹性
计算规模
存储
总结与思考
分析型数据库
特点
体验
云上大数据PaaS产品
大数据
云计算
云上大数据

该思维导图由 AI 生成,仅供参考

你好,我是何恺铎。
今天我们来讨论和学习云计算中的大数据产品与技术,这也是我自己最喜爱的话题之一。
我们都知道,云计算以存储、计算规模和弹性著称,而大数据方面的业务需求,恰恰需要大量的存储,和呼之即来的澎湃算力。所以,云可以说是最适合运行大数据工作负载的平台了。同时,云计算时代数据规模空前扩大,因此大数据也成为了云上最需要解决的重要场景之一。
正因为两者的关系如此紧密,又几乎处于同一个时代,以至于早年有一段时间,很多开发者产生了概念上的混淆,把“云计算”一词当作大数据技术的代称。但事实并非如此,你需要注意甄别。
在当今的技术语言体系中,我们应该这样来理解:大数据主要是技术手段,是一系列处理海量数据的方法论和技术实现的总称;而云是一种资源和能力的载体,也是一种商业存在,是可以运行大数据负载和应用的平台。
举个例子来形容两者的区别:你可以把云比作一艘航空母舰,是一个大型综合作战平台,而大数据呢,就好比战斗机这个武器门类,在航母上就成了舰载机,依托航母可以达到更大的作战纵深和更强的投递能力。
当大数据和云计算交汇,就自然诞生了云上的大数据 PaaS 产品,它们是云对大数据技术进行了封装和产品化的成果,也正是我们这一讲的主角。
确认放弃笔记?
放弃后所记笔记将不保留。
新功能上线,你的历史笔记已初始化为私密笔记,是否一键批量公开?
批量公开的笔记不会为你同步至部落
公开
同步至部落
取消
完成
0/2000
荧光笔
直线
曲线
笔记
复制
AI
  • 深入了解
  • 翻译
    • 英语
    • 中文简体
    • 中文繁体
    • 法语
    • 德语
    • 日语
    • 韩语
    • 俄语
    • 西班牙语
    • 阿拉伯语
  • 解释
  • 总结

云计算与大数据的结合被称为“天作之合”,因为云计算提供了存储、计算规模和弹性,而大数据业务需求需要大量存储和强大的计算能力。云计算成为了最适合运行大数据工作负载的平台。大数据是一系列处理海量数据的方法论和技术实现的总称,而云是一种资源和能力的载体,也是一种商业存在,可以运行大数据负载和应用的平台。云上大数据PaaS产品是云对大数据技术进行封装和产品化的成果。云上大数据服务不断跟进社区发展,包括MapReduce、Hive、HBase和Spark等技术,形成了一系列大数据服务的组合。其最大特点是简便易用,方便管理,降低了学习和应用大数据技术的门槛。通过实验,展示了在云上使用EMR服务运行Spark程序,统计小说《双城记》中的单词词频的过程,体现了云上大数据服务的易用性和便利性。 云上大数据服务的特点包括存储和计算的解耦,对象存储服务与大数据架构的深度集成,以及动态调整大数据集群规模的弹性。此外,云上大数据服务还提供增值服务,如性能监控和Jupyter Notebook,以及针对大数据框架的优化改进。另外,无服务器查询服务也是一种计算存储解耦的终极体现,适合偶发的数据分析需求。在大数据技术领域,分析型数据库也备受关注,MPP数据库和分布式并行查询处理降低了大数据技术的门槛,使得用户能够用熟悉的SQL方式来处理大数据。云上分析型数据库如AWS的Redshift和阿里云的AnalyticDB保留了MPP数据库的特点,并与云端生态结合紧密。总的来说,云上分析型数据库易用而性能强大,也能够存储和处理大规模的数据,成为了最热门的云上PaaS服务之一。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《深入浅出云计算》
新⼈⾸单¥29
立即购买
登录 后留言

全部留言(6)

  • 最新
  • 精选
  • 何恺铎
    置顶
    [上讲问题参考回答] 1. 防止“删库跑路”的要点,一个在于备份,一个在于权限。很多同学都同时提到了这两点。备份方面要善用云数据库各种备份机制,包括自动的增量/全量备份、事务日志备份、可长期保存的数据库快照等。权限方面主要注意数据库本体和备份的权限分离,不要把所有钥匙交到一个人的手里。如果真的出现意外彻底删除,也要记得迅速联系云厂商后台支持,仍有找回数据的一线生机。 2. 分区当然仍有它的应用价值;对于某些NoSQL类云原生数据库,分区是必选机制,直接影响着存储层的sharding策略;而对于关系型云原生数据库,也大都支持经典的数据库分区操作,和底层分布式存储不但不冲突,还能够有助于减少数据扫描、提高查询性能。
    2020-04-01
    12
  • 罗辑思维
    问题:现在在云上,如果使用远端的对象存储,是否和这个思想背道而驰了呢?背后是什么样的因素在推动这个转变呢? 个人思考:任何技术手段都是考虑性价平衡,如对读写延迟要求不高,低频,归档的数据可以放在远端。还有所谓远端可能是其他人的近端,可以通过BGP网络或者CDN加速的方式,提供用户就近访问,有效降低云服务器负载。 想到庄振运老师说过通过性能优化替公司省了几千万美刀,才明白技术是生产驱动力,省钱更是硬道理。

    作者回复: 思考的角度不错哦,赞。

    2020-04-02
    6
  • leslie
    Hadoop没有研究过:不过分析型数据库是初次考虑去涉及。我们不防去提出另一个问题:mongodb为何要对sql做极好的支持?这个是从mongodb初始就有的。 redis和mongodb应当算是同类型的基于内存存储的数据库:为何一个对sql做了极好的支持一个没有?老师分享的图片中有指出阿里云的两种分析型数据库是基于PGSQL和MYSQL,它们背后其实是缺乏OLAP类型DB支持的。 谢谢分享,期待后续课程。

    作者回复: 这里要修正一下你的说法,虽然官方的MySQL和PostgreSQL不支持列式存储,但阿里云ADB for MySQL/PostgreSQL都是有定制的列存储或行列混合存储引擎的,所以才称得上是“分析型数据库”。 支不支持SQL,以及优先级如何,更多取决于数据库的应用场景和数据结构特点。很多时候不是能不能的问题,是需不需要的问题。另外MongoDB和Redis的差别还是蛮大的。

    2020-04-01
    4
  • 胖子
    MPP数据库因解决什么问题而发展过来的?

    作者回复: 本质上MPP也是为了解决传统关系型数据库的性能和扩展性问题而诞生的,只是和Hadoop生态采用了不同的“大数据”思路和做法。

    2020-04-15
    1
  • Sports
    云计算和大数据就是珠联璧合啊
    2020-04-01
    4
  • 易轻尘
    第一个问题个人感觉是因为目前网络越来越快了,所以query延迟变得能够接受了。另一个原因是基于成本和可用性的考虑,比起企业私有的hadoop集群,云计算服务能够以更便宜的价格提供更专业的服务。
    2021-07-28
收起评论
显示
设置
留言
6
收藏
沉浸
阅读
分享
手机端
快捷键
回顶部