• 猿鸽君
    2021-09-03
    老师您好,首先真的很感谢您开了这门课,对我来说获益匪浅。 先自我介绍下个人情况,我是一名刚工作一年的小白,最初选择的是大数据平台研发的岗位,结果分配到了别的部门,现在每天的工作大多都是用spark做etl,所以老师的调优课对我的工作有很大帮助。但随之而来的就是自己对以后发展的迷茫,因为部门没有大数据方向的资深人员,自己的导师是后端开发,也是爱莫能助。所以想借此机会,有几个问题想请教下老师: 1.大数据这个领域有什么发展的方向?现在我知道的一个就是AI,一个就是做平台开发,对组件魔改。 2.现在涉及大数据的技术繁多,像docker,k8s,flink。没工作前以为这些会用到,自学过,结果现在工作了一年也没用到,都忘的差不多,感觉自己在做很多无用功。如何能够系统地规划自己的学习路线,而不是这样盲目的学习呢? 3.老师能够否分享一下自己的学习经历,和在大数据方向上的一些选择和取舍。 最后,再次感谢老师开了这门课。

    作者回复: 老弟的困惑和迷茫我感同身受,首先我想说,才工作一年,就开始有这样的疑问和困惑,其实你已经打败90%的同龄人了。这个不是安慰你,据我的观察,很少有初入职场就开始考虑职业发展的同学。我自己其实就是个例子,我其实在工作满3年的时候,才忽然意识到,我应该考虑职业发展这回事。所以首先恭喜老弟,你已经想到别人前面去了。 言归正传,咱们聊聊职业发展这回事。首先,我觉得,你需要明确,你的兴趣点,在什么地方。至少有两个方向,供你选择,第一:研究型,第二:应用型。啥叫研究型呢?就比如你做大数据二次研发,这就是研究型,就是把一个工具或者算法做到极值,把技术本身,做到极值。第二个是应用型,意思是,技术就是个工具,学好技术是为了解决业务问题,是为了落地业务应用,所以叫它“应用型”。 明确了兴趣点之后,其实大方向上就清晰了。先不用管这两个方向未来的薪资潜力,两个方向其实在薪资方面,都不弱,都有各自的用武之地。所以,说到底,还是要看你个人的兴趣,到底是哪个方向会让你觉得更有意思,做起来更有激情。这两个方向(当然,或许还有更多的别的方向),没有优劣之分,没有对错之分,纯粹是看你更喜欢哪一个,没有好坏。 OK,大的基调定下来之后。我们再说大数据这个领域的发展。一个,就是刚刚说的研究型,你可以做spark二次开发,为spark社区做贡献,或者是其它任意的大数据产品。另外一个,就是从大数据的几大应用场景着手,做应用开发,比如数仓是个方向、流处理是个方向、图计算是个方向、机器学习,更是个方向。同样,每个方向做好了,都有前景和钱景,并无优劣之分。这些应用场景,还是要看哪个你更有兴趣,更喜欢。其实,每个应用方向,又有“研究型”和“应用型”之分,这个跟刚刚说的,其实是一样的。 第二个问题是“学了就忘”,其实这个大家都一样,纯学理论知识,没有机会应用的话,确实很难记得住,这个不用懊恼,大家都一样的。所以还是要结合工作需要,有的放矢,用“学习、运用、输出”的迭代式学习法,来夯实已有的知识体系。光学不用的话,确实很难。 第三个问题是我自己的经历,我的经历其实挺简单的,就是数据库 -> 数仓 -> 数据分析 -> 机器学习,我是属于“应用型”的,我对技术的应用比较感兴趣,我比较懒,不喜欢做研究,所以选择了这个路线。另外我对数据分析,数据当中蕴含的价值,很感兴趣,这也是为什么会沿着数据分析这条路,慢慢地会入了机器学习的坑,目的就是想挖掘数据中的规律,来指导决策。当然,转行机器学习,也有一些功利心,毕竟机器学习比较火爆,应用场景多,对于个人的职业发展来说,选择的面会更大一些。 大概其就是这些思路,头上一句、腚上一句,不成体系,希望对老弟有所帮助~

    
    11
  • CycleGAN
    2021-10-23
    极客时间买了几十门课,这是我第一门完全听完的。。这门课在我的的这么多课里我觉得是top3的。。老师深入浅出的能力很强,大赞。我期待的课程是《spark源码分析》!!,感觉现在市场上没有见过特别好的。 关于spark我有个问题请教,在spark中遇到长尾task执行不完的该怎么kill掉重启呢,比如节点故障,让他在其他执行器重启,我看spark好像没有超时重试机制,是出于什么原因呢。有什么办法发现与重试呢,总不能爬spark ui去感知吧。。感谢老师!

    作者回复: 感谢老弟的认可与陪伴!恭喜老弟完成课程~ 💯 长尾task的话,一定意味着有倾斜,解决类似的问题,几个思路吧: 1)开启Speculative推断,Spark会自动启动单独的task,来执行同样的任务。这个就是你说的超时重试机制,Spark会推断,哪些tasks属于长尾任务,然后会自动在其他Executors去launch task,计算同样的数据分片,也就是说,在长尾task失败之前,就开始“重试”了 2)AQE自动倾斜,消除倾斜 3)手工加盐,消除倾斜 希望对老弟有所帮助~ 再次感谢!

    
    4
  • markliang
    2021-06-07
    期待机器学习课啊😎,fighting

    作者回复: 哈哈,后面会考虑的~

    
    3
  • Stony.修行僧
    2021-05-27
    头一次,紧跟步伐,没有掉队,这也跟目前手上的项目有关。学到特别多,一堆调优骚操作 发现产线上数据过大而内存有限,最后又回到原点 哎

    作者回复: 恭喜老弟完成课程~ 持续学习,一起加油~

    
    3
  • 福
    2021-12-22
    确实写的蛮好的,很用心,并且很多问题都和大家有互动,我一个平时不喜欢看书的人都觉得蛮有意思的,哈哈哈, 吴老师,强列推荐你在写篇flink的,如果不会,你就去学!!!

    作者回复: 哈哈,感谢老弟认可~ Flink懂一些,不过确实不像Spark那么熟悉,而且公司这边事情积压成山,实在没精力再写啦。不过感谢老弟的鼓励,等忙完这一阵子,以后找机会再写吧~

    
    1
  • 陈威洋
    2021-07-24
    深研完磊哥的大作,深感自豪!~估计在日后的推荐算法工作中经常运用,也能在面试中加分。感谢磊哥,希望磊哥再出一个flink课程,我们同仁都很期待,也想帮忙~

    作者回复: 感谢兄弟的认可!非常感谢兄弟的美意,不过精力、能力确实有限,Flink恐怕爱莫能助了。后面看看吧,有可能的话,再写一些东西,希望对大家能有所帮助。祝老弟工作顺利、前程似锦、平步青云~ 老弟不妨加我微信,搜索“方块K”或是“rJunior”,后面找机会一起合作~

    
    1
  • 斯盖丸
    2021-05-28
    吴老师,每节课课后的思考题都挺难的,有的至今还不知道答案,还会给我们讲一下吗?

    作者回复: 没问题,可以讲的,老弟可以把不知道答案的题列在留言区,或者是github上面。其实咱们每讲后面都有很多讨论,我理解大部分课后习题大家应该都讨论过,不过也难免有漏网之鱼,老弟可以帮忙整理个“待解答列表”,然后我们一起过一下~

    
    
  • 王天雨
    2021-05-27
    感谢吴老师!

    作者回复: 恭喜兄弟完成课程~ 持续学习,与君共勉~

    
    