Spark 核心原理与实战
王磊
Yeahmobi 大数据架构师,阿里云 MVP
3370 人已学习
已下架
课程目录
已完结/共 60 讲
第一章:Spark概述及入门实战 (10讲)
第二章:深入Spark RDD原理 (6讲)
第三章:Spark SQL、DataFrame、DataSet原理和实战 (3讲)
第四章:深入理解Spark数据源 (7讲)
第五章:Spark流式计算原理和实战 (6讲)
第六章:Spark作业调度和资源分配算法 (7讲)
第七章:亿级数据处理平台Spark性能调优 (7讲)
第八章:Spark机器学习库 (8讲)
第九章:Spark的未来与实战经验分享 (6讲)
Spark 核心原理与实战
登录|注册
留言
3
收藏
沉浸
阅读
分享
手机端
回顶部
当前播放: 09 | Spark批处理做作业入门Demo
00:00 / 00:00
高清
  • 高清
1.0x
  • 2.0x
  • 1.5x
  • 1.25x
  • 1.0x
  • 0.75x
  • 0.5x
网页全屏
全屏
00:00
付费课程,可试看
本节摘要
登录 后留言

全部留言(3)

  • 最新
  • 精选
雪候鸟
调试了一天这个代码, 也没有调通,被这个版本兼容彻底弄崩溃了, 我的spark版本是2.4.3, scala版本是2.11.8, 一开始没有在pom文件中加jackson依赖, 报 Incompatible Jackson version: 2.9.10-7 错误, 后来在pom文件中加上jackson-core和jackson-databind依赖, 版本从2.8.x到2.11.x, 几乎每个小版本都试了一遍, 一直报 Incompatible Jackson version, 想问下老师, 有没有地方可以查spark2.4对应jackson哪个版本?

作者回复: Spark和jackjson没依赖关系,是不是你工程中的其他依赖和Jackson冲突?

2021-01-18
walnut
问个问题,如果我的批处理数据有很多步。其中有一步错了,就要重新计算。我们现在的做法是分割成多个sqark任务,然后存中间结果。有没有有更好的方式吗?比如用一个jar做计算,但是出错了有办法从中间某一步开始?

作者回复: 在任务中间使用数据持久化将重要中间结果持久化起来,或者使用checkpoint ,后面调优环节会详细介绍。你们分多个任务有点重了,建议分多个stage或job

2020-11-09
walnut
老师,问下spark 有没有什么好的测试或者单测的手段?

作者回复: 如果要测试代码可用性可以先用小的数据直接在本地跑,或者在测试集群中跑,不过一般线上测试才能满足要求。因为有些异常数据测试环境不一定有。另外代码在不同量级的数据上跑出来效果不一样。

2020-11-03
收起评论